关键词:
机器学习
肿瘤标志物
胃癌
分类算法
摘要:
目的基于三种机器学习方法建立多肿瘤标志物联合区分胃炎和胃癌模型。方法选取2010~2021年期间来西京医院就诊诊断为胃炎和胃癌的患者13727例,收集入组患者基本信息(年龄和性别)、甲胎蛋白(alpha-fetoprotein,AFP)、癌胚抗原(carcinoembryonic antigen,CEA)、糖链抗原19-9(carbohydrate antigen 19-9,CA19-9)及糖链抗原125(carbohydrate antigen 125,CA125)结果。采用随机森林(random forest,RF)、决策树(decision tree,DT)和K最邻近法(K-nearest neighbor,KNN)三种机器学习算法挖掘入组患者6种变量的数据,建立区分胃炎和胃癌模型。验证各模型对所有入组患者、不同年龄层的入组患者、AFP阴性入组患者的胃炎和胃癌鉴别能力,并与单肿瘤标志物鉴别能力做对比。结果利用机器学习算法构建的RF-pv6,DT-pv6和KNN-pv6模型对所有的患者诊断曲线下面积(area under the curve,AUC)均高于0.742,单肿瘤标志物AUC均低于0.644;各模型对于小于50岁患者,AUC均高于0.668,单肿瘤标志物AUC均低于0.641;各模型对于大于50岁患者,AUC均高于0.734,单肿瘤标志物AUC均低于0.647;各模型对于AFP阴性患者,AUC均高于0.731,单肿瘤标志物AUC均低于0.639。各模型在所有入组患者及其亚组中的AUC高于单肿瘤标志物的AUC。结论通过利用机器学习算法挖掘入组患者的6种特征数据建立的三种模型效能均优于单肿瘤标志物对胃炎和胃癌的鉴别能力。