关键词:
蛋白质组学
医学成像
机器学习
上海同步辐射光源
医学图像数据
摘要:
上海同步辐射光源(Shanghai Synchrotron Radiation Facility,SSRF)是一台高性能的第三代同步辐射光源,是我国迄今为止最大的科学研究装置和公共实验平台。利用上海同步辐射装置的高亮度、短波长的同步辐射光在空间分辨上的优势,将可以进行许多前沿学科的探索,尤其是生命科学领域。利用BL17U—生物大分子晶体学光束线站,生物学家能获得生物大分子的三维结构,进而研究其结构与功能之间的关系;而利用BLl3W1一X射线成像及生物医学应用光束线站,医学家则可以揭示活体肿瘤和脑血管病的发生和发展机制,为发展重大疾病的早期诊断与治疗提供关键理论基础和技术支撑。\n 目前利用上海光源已经产生了大量的蛋白质和医学图像数据,单纯地利用传统的生物和医学实验方法,或者根据专家经验将很难快速且全面的处理如此多的数据,从而必然制约了上海光源在生命科学领域应用的快速发展。在这种情况下,利用计算机自动的理解这些数据的生物信息学和医学图像处理应运而生。\n 本文中讨论利用机器学习的方法,对这些蛋白质结构和医学图像数据进行分类、检索以及相关特性的预测。旨在运用机器学习的理论和方法来研究蛋白质结构与功能特性,以及医学影像和疾病特点之间的内在联系,在已有数据的基础之上发现相应的规律和知识并进而用来进一步指导与解释新产生的蛋白质和医学影像,加速对生命本质特征的认识。本论文在机器学习及生物信息学、医学图像理解理论与方法上进行了深入的研究与探索。分别提出了新颖的医学图像检索,基于医学图像的组织分类,蛋白质数据库检索,以及蛋白质折叠类心预测算法。相关成果发表于顶级期刊Pattern Recognition,BMCBioinformatics和IIEEE Transactions on Medical Imaging等期刊上。论文的主要内容和创新点如下:\n 1.基于内容的医学图像检索指的是,给出一幅医学图像,系统根据图像的内容相似度,从数据库中检索出若干相似的医学图像。这对医学研究人员和医生判断医学图像所隐含的疾病信息很有帮助。基于“特征袋”这一图像表达模型,对医学图像的局部特征量化分配问题进行了创新研究,并应用于医学图像检索。建立了局部特征到量化的视觉词典的贡献函数,并基于二次规划方法,提出了一种新的分配侧率QP分类。进一步地,对视觉词的加权进行了研究,提出了为每个视觉词构建弱分类器,再通过AdaBoost算法学习每个视觉词权值的算法。\n 2.医学图像中的组织进行自动分类,对医疗诊断和研究有着重要的意义。我们提出了利用基于“特征袋”方法的组织分类方法。“特征袋”方法最重要的两个环节就是视觉词典的学习,以及视觉词的加权。虽然目前针对这两个问题有很多研究,但是都是相互独立的。而实际上他们存在着密切的联系。我们提出了视觉词典及其加权矢量的联合学习算法,在一个目标函数中统一这两个参数,并且在算法中迭代地优化。\n 3.蛋白质数据库检索,或者蛋白质的最近邻分类,指的是给出一个查询蛋白质,从数据库中找出若干性质(如折叠类型)相同的蛋白质。这以过程中关键的步骤就是如何定义“相似度”的问题。传统的相似测度只考虑了两个蛋白质,而最近提出的上下文敏感的相似测度则可以同时考虑数据库中的其他样本。我们通过定义“参考集合”来考察到底数据库中的哪些样本会起到影响的作用。进而提出了最短路径传播算法,指出两个蛋白质之间的最短路径上的蛋白质起到的作用最大。\n 4.目前为止,所有的上下文相关的相似度学习都未用到数据库中蛋白质的类别标号(如折叠类型的标号)。这阻碍了这一领域的发展。我们创造性的提出了利用蛋白质类别标号的监督式上下文敏感的相似度学习方法。利用数据库中的同类蛋白质对(相关的),以及异类蛋白质对(无关的),我们计算他们的上下文相似度矢量,来训练一个SVM模型来对一对未知的蛋白质对的相似度进行规整,得到新的相似度。而基于新的相似度,我们又重新确定他们的上下文。如此,我们提出了新的上下文敏感相似度计算方法。\n 5.最后,我们利用我们提出的机器学习的方法,对上海光源产生的医学图像和蛋白质结构进行了检索和分析的示例。对BLl3W1一X射线成像及生物医学应用光束线站城乡形成的肺癌图像,进行了数据库检索试验。对BL17U-生物大分子晶体学光束线站产生的蛋白质结构数据3EOP,进行了数据库检索和折叠类型预测的实验。实验结果证明我们提出的算法能有效应用于SSFR数据的分析。