关键词:
生物信息学
DNA复制
表观遗传学
三维染色质互作
摘要:
DNA复制(DNA Replication)是指在细胞分裂间期,亲代DNA分子按照碱基互补配对原则合成两个相同的子代的过程。该过程是细胞生命活动的基础,能够确保在细胞分裂时将遗传信息准确传递给子细胞,对维持细胞遗传信息的稳定和众多生命活动过程起着至关重要的作用。对于具有较大基因组的真核生物,需要多个复制起始位点(Origin of DNA replication,ORI)同时进行复制,从而达到遗传信息高效传递的需求。因此,精密地协调基因组中众多复制起始位点的发生,是保证真核细胞遗传信息正确传递的关键。研究DNA复制起始机制的关键步骤是高精度、大规模地确定复制起始位点在基因组中的位置,然而当前复制起始位点识别模型在物种丰富度、特征有效性、与疾病关联分析方面均存在局限性,为此本文的研究重点是从多物种、多角度、多尺度来分析并识别复制起始位点。基于DNA序列、表观遗传标记、染色质三维结构、以及复制时序(Replication Timing)对复制起始进程的影响,本文将DNA复制与序列信息、表观遗传标记、三维染色质结构相关联,深入挖掘复制起始调控机制,构建真实反映复制发生规律的复制起始位点识别模型,并从时间维度探究DNA复制起始与疾病的关联关系,系统表征复制时序与癌症发生之间的关系。全文的具体研究内容如下:(1)针对复制起始位点识别模型的物种局限性,本文分析了不同真核物种复制起始位点的序列保守模式,并利用DNA序列信息构建了首个多物种真核基因组复制起始位点在线预测平台i ORI-Euk(http://***/server/i ORI-Euk/),解决了预测软件在实际使用层面可利用性不足的缺陷。i ORI-Euk模型按照以下步骤进行构建:首先,收集并构建真核复制起始位点基准数据集,利用k-mer组分和单核苷酸二进制编码提取序列信息;然后,利用特征组合策略结合F-score特征筛选方法获得最优特征子集;最后,采用支持向量机(Support Vector Machine,SVM)进行模型训练。5-折交叉检验结果显示i ORI-Euk的模型预测精度达到了80%~94%,证明了模型的鲁棒性,此外,方法间的比较分析表明,i ORI-Euk在预测精度值上比其它工具提高了4%~18%。基于模型的高预测性能,本文搭建了高效的复制起始位点在线预测平台i ORI-Euk,通过该平台,用户可轻松获取多种真核物种全基因组中潜在的复制起始位点的信息,以此满足用户对多物种的需求。(2)复制起始的触发受DNA序列信息调控外,还涉及复杂的表观调控机制,需要多种表观遗传标记协同发挥作用,仅从DNA序列层面可能不足以精确定位复制起始位点。因此,本文分析了表观遗传标记与人类基因组复制起始位点的关系,并探究了表观遗传信息识别复制起始位点的能力。研究结果表明,复制起始位点与活性表观遗传标记和染色质可及性高度耦合,表观遗传标记在复制起始区域与其侧翼区有显著富集差异,并且发现复制起始区域富含高GC含量的转录因子DNA模体(Motif),这些发现说明表观遗传信息具有预测复制起始位点的潜力。因此,本文利用表观遗传标记和转录因子的DNA模体序列刻画复制起始位点的表观遗传特征,并利用随机森林(Random Forest,RF)进行模型训练。结果显示,基于表观遗传标记和转录因子DNA模体序列特征的模型分别获得0.9033和0.9042的预测精度,证明了表观遗传标记在识别复制起始点中的有效性。(3)DNA复制起始位点的选择还与染色质三维构象相关,位于染色质结构域内部、聚集在一起的复制起始位点有更高的起始概率。为此,本文利用三维染色质构象数据,系统探究了三维染色质互作对人类基因组DNA复制起始的影响。具体研究策略如下:首先,单独使用三维染色质互作信息识别复制起始位点,研究结果表明染色质互作信息能够有效识别复制起始位点(AUC=0.8488)。为了获得更精确的预测模型,采用特征融合策略结合递归特征消除技术分别获得多模态特征集(染色质互作特征、表观遗传标记、DNA模体特征)和最优特征子集。结果显示多模态特征融合策略能够显著提升模型的预测性能(AUC=0.9627);此外,特征筛选方法有效地去除了大量的冗余特征,进一步提升了模型的鲁棒性(AUC=0.9638)。最终,本文研究证明了多模态表观遗传信息可以精确识别人类基因组复制起始位点,并解释了三维染色质结构对复制起始位点识别的重要性,提供了多模态特征识别真核复制起始位点的范例。本文开发的多模态特征识别真核基因组复制起始位点的研究框架可从Github(https://***/lin Ding-group/i ORI-Epi)免费获取。(4)本文前三个部分的研究突破了多物种、多模态特征的复制起始位点的研究局限,但缺乏从时间角度