男性乳腺癌预测模型:这篇文章都给你整得明明白白的!

古月 一点统计 2023-04-23 22:22 发表于福建

点击上方蓝字关注,更多干货等你挖掘!

一生何求

男性也有乳腺癌?是的,不过男性乳腺癌比较少见,占所有乳腺癌的比例约1%。但是,近些年其发病率呈现上升趋势。尽管近些年诊疗技术提升,使得乳腺癌患者生存时间延长,但其不良预后众多,其中,远处转移便是严重的并发症之一。与此同时,患者大多伴有其他部位转移,如骨转移、肺转移等。因此,早期预测至关重要了!

本文不仅关注预测,更重视预测模型的可解释性。因此,作者采用可解释性框架SHAP进行研究。同时,探讨了机器学习方法与nomogram的比较。

研究数据和研究对象:本文有两个数据来源,其一是公开数据库SEER,纳入了2010-2015年间的2241名男性乳腺癌患者;其二是来自2010-2020年哈尔滨医科大学肿瘤医院的110名男性乳腺癌患者。研究样本的详细筛选流程如下图。
图片

数据预处理:对于缺失比例<30%的变量,采用KNN进行填补,对于无序多分类变量,采用one-hot进行编码。本文初步纳入的变量有14个,为简化模型构建,作者采用LASSO进行特征筛选,最终保留了6个。
图片

模型构建与评估:本文SEER用于模型构建与内部验证,医院数据用于外部验证。数据采用7:3进行划分。由于男性乳腺癌远处转移的发生比例较低(约7%),属于类别不均衡,因此,作者在训练集上使用了SMOTE。同时,在训练集上使用10-折交叉验证进行超参数调优。纳入的预测模型包括决策树、KNN、支持向量机和XGBoost,同时也纳入了列线图。内部验证采用bootstrap方法进行,模型间差异采用Delong检验。主要的评估指标包括AUC和Brier得分。这里注意一点,本文预处理和特征选择是在数据划分前进行的。
图片

主要结果
1.LASSO特征选择结果
图片

2.模型学习曲线:模型学习曲线在多数文献中不多见,大家不妨试试,给自己的文章增色哦(学习曲线主要用于反映模型训练是否过拟合?是否收敛?)。
图片

3.交叉验证性能:10折交叉验证的AUC如下,总体而言,结果比较稳定。
图片

4.ROC曲线和校准曲线
图片

5.模型性能比较:本文采用Delong检验,对所有模型进行了两两比较,从统计学角度评价模型性能是否存在差异。
图片

6.最优模型和列线图比较:本文将最优预测模型XGB与列线图进行比较,结果显示XGB要优于列线图。但列线图也是相对不错的哦。
图片

7.列线图可视化
图片

8.单因素和多因素logistic:由于使用的是传统logistic回归,所以作者做了共线性检验,将方差膨胀因子VIF>5的变量剔除。
图片

9.骨转移预测:本文除了做远端转移,还做了骨转移和肺转移,内容更加丰富。
图片

图片

10.可解释性分析:SHAP技术用来做全局、局部可解释性分析,剖析重要决策因素。
图片
图片

11.模型应用:本文作者进一步将最优预测模型XGB转化为在线计算器,灵活方便。
图片

Reference: The prediction of distant metastasis risk for male breast cancer patients based on an interpretable machine learning model


全文将预测模型的各个环节做了详细介绍,内容全面,值得朋友们看看,借鉴一下哦~

喜欢今日推送,欢迎转发+分享~

收录于合集 #文献速递
 132
上一篇掌握这两个技能,预测模型实现大飞跃:不平衡数据预测+预测变量的组合运用下一篇预测变量+特征选择+预测流程图+性能展现+重要性分析+不平衡预测......

微信扫一扫
关注该公众号