点击上方蓝字关注,更多干货等你挖掘!男性也有乳腺癌?是的,不过男性乳腺癌比较少见,占所有乳腺癌的比例约1%。但是,近些年其发病率呈现上升趋势。尽管近些年诊疗技术提升,使得乳腺癌患者生存时间延长,但其不良预后众多,其中,远处转移便是严重的并发症之一。与此同时,患者大多伴有其他部位转移,如骨转移、肺转移等。因此,早期预测至关重要了!
本文不仅关注预测,更重视预测模型的可解释性。因此,作者采用可解释性框架SHAP进行研究。同时,探讨了机器学习方法与nomogram的比较。研究数据和研究对象:本文有两个数据来源,其一是公开数据库SEER,纳入了2010-2015年间的2241名男性乳腺癌患者;其二是来自2010-2020年哈尔滨医科大学肿瘤医院的110名男性乳腺癌患者。研究样本的详细筛选流程如下图。数据预处理:对于缺失比例<30%的变量,采用KNN进行填补,对于无序多分类变量,采用one-hot进行编码。本文初步纳入的变量有14个,为简化模型构建,作者采用LASSO进行特征筛选,最终保留了6个。模型构建与评估:本文SEER用于模型构建与内部验证,医院数据用于外部验证。数据采用7:3进行划分。由于男性乳腺癌远处转移的发生比例较低(约7%),属于类别不均衡,因此,作者在训练集上使用了SMOTE。同时,在训练集上使用10-折交叉验证进行超参数调优。纳入的预测模型包括决策树、KNN、支持向量机和XGBoost,同时也纳入了列线图。内部验证采用bootstrap方法进行,模型间差异采用Delong检验。主要的评估指标包括AUC和Brier得分。这里注意一点,本文预处理和特征选择是在数据划分前进行的。2.模型学习曲线:模型学习曲线在多数文献中不多见,大家不妨试试,给自己的文章增色哦(学习曲线主要用于反映模型训练是否过拟合?是否收敛?)。
3.交叉验证性能:10折交叉验证的AUC如下,总体而言,结果比较稳定。
5.模型性能比较:本文采用Delong检验,对所有模型进行了两两比较,从统计学角度评价模型性能是否存在差异。
6.最优模型和列线图比较:本文将最优预测模型XGB与列线图进行比较,结果显示XGB要优于列线图。但列线图也是相对不错的哦。
8.单因素和多因素logistic:由于使用的是传统logistic回归,所以作者做了共线性检验,将方差膨胀因子VIF>5的变量剔除。
9.骨转移预测:本文除了做远端转移,还做了骨转移和肺转移,内容更加丰富。
10.可解释性分析:SHAP技术用来做全局、局部可解释性分析,剖析重要决策因素。
11.模型应用:本文作者进一步将最优预测模型XGB转化为在线计算器,灵活方便。
Reference: The prediction of distant metastasis risk for male breast cancer patients based on an interpretable machine learning model全文将预测模型的各个环节做了详细介绍,内容全面,值得朋友们看看,借鉴一下哦~ 一点统计 统计学习第一站,陪有梦想的你一起成长,每晚22点22分准时分享。
265篇原创内容
公众号
,