关键词:
内转录间区
机器学习
MetaCost
深度学习
BP神经网络
SVD降维
细菌鉴定
菌群组成
摘要:
细菌广泛存在于自然环境如土壤、水体、空气以及各种大型生物体的皮肤、呼吸道、消化道和肠道中。细菌以菌群的形式与宿主在营养、免疫、生理等方面相互作用,构成了动态平衡的复杂生态系统。了解细菌菌群的物种组成和相对丰度对研究菌群功能以及菌群与宿主之间的相互作用至关重要,准确快速鉴定细菌菌群对疾病的诊断及后续针对性治疗意义重大。
细菌鉴定的方法多种多样。传统实验鉴定方式耗时耗力。基于16S rDNA测序鉴定一般仅能精确到属水平。全基因组测序能够全面、精确分析生物体基因组中的碱基组成,已成为细菌鉴定、分型及溯源的金标准技术。其缺点是费用较高。主流的鉴定方式或需要较长的时间,或需要较高的成本。
16S-23S rDNA间区(16S-23S rDNA intergenic transcribed spacer,简称ITS)进化速度是16S rDNA的10倍,对细菌的属、种及亚种区分良好。但是大部分细菌的ITS序列并未被测定,核酸数据库的缺失是细菌ITS的多态性及利用该片段进行分类鉴定细菌研究的障碍。
本研究构建了ITS序列多态性数据库。该数据库中包含2085种、7228株细菌的序列、长度、拷贝数信息。对数据库中该DNA片段的长度和物种映射关系进行统计后,发现ITS的长度也具有物种特异性,可以用于细菌鉴定。ITS数据库所收录的核酸序列为ITS序列多态性鉴定细菌物种提供了支持,所构建的ITS长度与细菌物种的映射关系为本研究基于ITS长度鉴定细菌菌群构成的机器学习模型提供了基础。
基于ITS长度多态性,本研究构建了快速鉴定菌群组成的传统机器学习模型和深度学习模型。首先从GMrepo数据库上获取了样本菌群组成数据集,联合样本菌群数据集和ITS数据库获取到样本ITS组成数据集;然后对数据集进行标准化预处理。之后基于随机树编码和Meta Cost算法构建了传统机器学习模型,基于BP神经网络和SVD降维技术构建了深度学习模型来快速鉴定菌群组成,对模型进行了多角度的评估及对比,其中深度学习模型鉴定效能最为均衡,其微观精确率及微观召回率在测试集和验证集中均可达到80%以上,鉴定效能稳定有效,可以应用于待测粪便样本菌群组成的定性预测。
本研究所构建的ITS数据库及基于ITS多态性构建的菌群组成快速鉴定传统机器学习模型和深度学习模型,为肠道菌群组成的鉴定提供了新的方法和思路。