男性乳腺癌预测模型：这篇文章都给你整得明明白白的！

原创古月一点统计 2023-04-23 22:22

点击上方蓝字关注，更多干货等你挖掘！

男性也有乳腺癌？是的，不过男性乳腺癌比较少见，占所有乳腺癌的比例约1%。但是，近些年其发病率呈现上升趋势。尽管近些年诊疗技术提升，使得乳腺癌患者生存时间延长，但其不良预后众多，其中，远处转移便是严重的并发症之一。与此同时，患者大多伴有其他部位转移，如骨转移、肺转移等。因此，早期预测至关重要了！

本文不仅关注预测，更重视预测模型的可解释性。因此，作者采用可解释性框架SHAP进行研究。同时，探讨了机器学习方法与nomogram的比较。

研究数据和研究对象：本文有两个数据来源，其一是公开数据库SEER，纳入了2010-2015年间的2241名男性乳腺癌患者；其二是来自2010-2020年哈尔滨医科大学肿瘤医院的110名男性乳腺癌患者。研究样本的详细筛选流程如下图。

数据预处理：对于缺失比例＜30%的变量，采用KNN进行填补，对于无序多分类变量，采用one-hot进行编码。本文初步纳入的变量有14个，为简化模型构建，作者采用LASSO进行特征筛选，最终保留了6个。

模型构建与评估：本文SEER用于模型构建与内部验证，医院数据用于外部验证。数据采用7:3进行划分。由于男性乳腺癌远处转移的发生比例较低（约7%），属于类别不均衡，因此，作者在训练集上使用了SMOTE。同时，在训练集上使用10-折交叉验证进行超参数调优。纳入的预测模型包括决策树、KNN、支持向量机和XGBoost，同时也纳入了列线图。内部验证采用bootstrap方法进行，模型间差异采用Delong检验。主要的评估指标包括AUC和Brier得分。这里注意一点，本文预处理和特征选择是在数据划分前进行的。