关键词:
急性A型主动脉夹层
机器学习
脑部并发症
预测模型
SHAP
摘要:
背景:急性Stanford A型主动脉夹层(ATAAD)属于极其危重的疾病之一,近年发病率不断上升。由于手术难度大、时间长、涉及体外循环等,术后易发生各种并发症,涉及器官范围广,其中尤以脑部并发症多见。目的:本研究旨在使用机器学习方法构建ATAAD术后脑部并发症的最佳预测模型,为早期识别高风险患者提供支持,并基于SHAP对模型提供解释,探究相关危险因素,为临床提供一定的参考依据。方法:本项研究回顾性纳入2017年1月--2021年9月就诊于兰州大学第一医院心血管外科的ATAAD患者,严格按照纳排标准筛选资料。首先清洗数据、编码及分组,对全部数据标准化处理,以7:3随机划分全部数据为训练集和测试集。在训练集内,对无序多分类变量引入虚拟变量(DV),通过最小绝对收缩和选择算子(LASSO)回归筛选最佳特征,引入过采样和欠采样方式相结合的SMOTEEN算法平衡数据集,基于Logistic回归(LR)、K最邻近(KNN)、随机森林(RF)、梯度提升机(GBM)、支持向量机(SVM)、全连接神经网络(MLP)构建预测模型,使用K折交叉验证或超参数网格搜索进一步调优参数,以准确度(Accuracy)为标准确定最佳参数并代入模型。完成后在测试集内验证各模型性能,绘制各模型受试者工作特征曲线(ROC),采用Brier评分(BS)、准确度(Accuracy)、灵敏度(Sensitivity)、特异度(Specificity)、F1分数(F1 score)以及曲线下面积(AUC)综合评价模型效能,以AUC最大者为最佳模型,进一步行Hosmer-lemeshow检验(HL),绘制决策曲线分析(DCA)明确模型的净收益。采用SHAP(Shapley additive explanations)算法解释模型并可视化。结果:(1)Lasso回归确定的最佳特征集为:术后ALT值、手术总时间、术中冷沉淀的输注量、术后LDH值、头臂干受累及情况、术后尿素值、年龄和高血压。(2)确定的最佳模型为RF模型,AUC值最大,为0.828[95%CI(0.585,0.902)],F1分数(F1 Score)为0.667[95%CI(0.375,0.959)],灵敏度为0.833[95%CI(0.535,0.932)],特异度为0.892[95%CI(0.792,0.992)],BS为0.139[95%CI(0.035,0.244)],综合性能良好。在HL检验中P=0.183,提示RF模型拟合较好。DCA提示在较大的阈值范围内通过RF模型可获得较高净收益。(3)基于SHAP算法解释模型,提示RF模型中对预测结果影响最大的特征为术后ALT水平,其次分别为手术总时间和术中输注冷沉淀。其中术后ALT水平、手术总时间对模型的预测结果起正向贡献,输注冷沉淀对模型起负向贡献。结论:(1)术后ALT值、手术总时间、术后LDH值、头臂干受累及、术后尿素值、年龄和高血压史为ATAAD术后脑部并发症的危险因素,对于排名靠前的相关因素需给予足够重视;(2)术中适量输注冷沉淀可以减少脑部并发症的发生,未来可通过更大样本数据进一步验证;(3)在本研究中,相比Logistic回归,RF算法模型具有更好的预测能力,综合性能更优,提示机器学习算法在数据挖掘与分析中具有独特优势;在本研究中RF模型可及时识别ATAAD术后脑部并发症高风险患者,为早期提供干预、改善患者预后提供支持。