关键词:
乳腺癌
数据挖掘
生物信息学分析
肿瘤体细胞突变目录
癌症基因组图谱
转移性乳腺癌
游离DNA
数字PCR
基因组当量
疗效监测
循环肿瘤DNA
靶向捕获
高通量测序
摘要:
无论从发达国家还是从发展中国家,无论从每年新发病例数量出发还是从每年死亡情况来看,乳腺癌都是威胁女性健康最常见的癌症。其中,转移性乳腺癌(Metastatic Breast Cancer, MBC)仍是不可治愈的疾病,治疗目的主要是为了减轻症状,改善生活质量和延长生存期。因此,为了避免无效治疗的持续、为了预防不必要的医疗毒性、为了明确治疗应答、合理搭配宝贵的医疗资源,筛选高灵敏并且强特异的生物标志物用于监测转移性乳腺癌患者治疗过程中肿瘤负荷的变化,具有重要的科学及社会意义。随着近年来肿瘤细胞生物学及分子生物学的深入研究,以及检测技术手段的快速发展,循环肿瘤标记由于检测的便利性和非侵入性正逐步取代受到标本采集以及无法连续监测追踪等诸多限制的组织学肿瘤标记用于肿瘤治疗过程中反应的监测。如癌抗原15-3(CA 15-3)和循环肿瘤细胞(Circulating Tumor Cells, CTC)等标志物已得到广泛研究。随着“液体活检”概念的推广,携带有肿瘤特异性变异的循环肿瘤DNA (Circulating Tumor DNA, ctDNA)逐渐被人们所重视,并成为肿瘤细胞生物学及分子生物学研究领域的热点和亮点。第一章基于数据挖掘技术的乳腺癌靶向外显子的筛选和验证背景:对于癌症来说,发生突变的基因仅占整个基因组的很小一部分,这表明只有有限数量的基因参与了某一类型癌症的发生和发展。因此,只有这些与癌症相关联的一组基因是监测治疗过程中肿瘤负荷变化所必需的。但遗憾的是尚无一种能够科学完整而又非常集约化的策略来明确这些与特定肿瘤类型相关的目标基因区域。目的:本部分拟基于生物信息学和数据挖掘技术筛选出与乳腺癌高度相关的目标基因区域,为后续的靶向捕获测序提供靶标,减少盲目性,节约实验成本,使检测技术的针对性更强,适用性更广。方法:从癌症基因组图谱库(TCGA)中963例乳腺癌患者中,随机选取776例作为训练集,剩余的187例作为预测集;基于肿瘤体细胞突变目录(COSMIC)数据库,筛选出乳腺癌相关基因突变所在的基因功能区域;用筛选出的潜在“靶向区域(Selector)",覆盖训练集中乳腺癌患者的遗传学改变信息进行;应用迭代算法使"Selector"在覆盖训练集中尽可能多的患者的同时达到尽可能的精简;使用生物信息学分析技术对"Selector"所涉及基因,进行KEGG pathway和Gene Ontology分析;最后通过预测集乳腺癌患者和临床生物标本对已筛选出的"Selector"进行覆盖度验证并优化完善。结果:"Selector"共计包含了834个乳腺癌相关基因,961个外显子,23982049个单核苷酸变异(SNVs),134个Indels,52个Fusions,长度为118.24kb,遍布在所有编号染色体上。按照生物学过程分类:"Selector"所涉及基因所属的GO-BP分类有1348个,最多的5种途径分别是:cellular component organization or biogenesis,cellular component organization,collagen catabolic process, single-organism developmental process和multicellular organismal catabolic process。按照细胞组件注释:"Selector"所涉及基因所属的GO-CC分类有239个,前五位分别是:cell projection, cytosol, endoplasmic reticulum lumen, membrane region和cytoplasm。按照分子功能注释:"Selector"所涉及基因所属的GO-MF分类有269个,前5种功能分别是:ATP binding, adenyl ribonucleotide binding, adenyl nucleotide binding, anion binding和extracellular matrix structural constituent.."Selector"所涉及基因可能参与调节的KEGG信号通路包括73条,前五位主要涉及黏着斑、子宫内膜癌、小细胞肺癌、阿米巴病和促性腺激素释放激素信号通路。"Selector"在训练阶段可以覆盖100%的乳腺癌患者,预测集验证阶段亦可以覆盖高达88.7%的乳腺癌患者,平均识别每位患者2个及以上SNVs。40例独立转移性乳腺癌患者不同治疗阶段的72份生物标本验证结果显示,该区域可以覆盖100%的患者和生物标本。结论:"Selector"有效的将乳腺癌相关的靶向测序区段浓缩至整个基因组大小的3.7/10万,使得后续深度测序得以实现,为后续研究提供了靶标,减少了实验测