点击上方蓝字关注,更多干货等你挖掘!今天分享一篇来自JAMA子刊的重磅文献,该文利用机器学习方法,对参与阿富汗战争的士兵进行创伤后应激综合征预测。该文献来自公众号粉丝的推荐,感谢你的分享。文中有较多亮点,且重点在方法部分,特与大家分享。
Reference: Development and Validation of a Machine Learning Prediction Model of Posttraumatic Stress Disorder After Military Deployment本文数据来自3个不同地区的作战小组,采集了士兵们作战前的资料(预测因素),初步纳入了801个变量作为预测因素。同时也收集了作战后的结局资料(创伤后应激综合征,二分类:是或否)。本文将其中两个地区的数据用于建模,另一个用于区域外部验证。下面,重点解读一下本文的方法部分,比较精彩。
如上所述,为了保证模型的外推性或泛化能力,作者利用2个地区数据构建模型,用剩下的一个地区数据做外部验证,此验证类型为"时间/地区外部验证"。
本文的预处理如下,1)分类变量进行二值编码;2)剔除方差接近0的变量,因为方差接近0的变量所含信息过少,对预测价值不大;3)缺失值填补中,采用中位数、众数,此外还用了missing data indicators,即缺失值指示法(构造一个新的变量,指示是否存在缺失);4)数据标准化处理;5)为了避免信息泄露,所有预处理操作先在训练集上完成,而后应用于测试集。
本文主要选择3类模型,1)弹性网;2)梯度增加模型GBM;3)异质集成stacking模型。为了对比,作者还增加了两个模型,一个是传统logistic回归模型,即不包含任何正则化项的logistic回归(多因素)。另一个同样是传统logistic回归,但只纳入了一个因素(单因素)。
本文中模型评价指标包括了AUC、log损失、混淆矩阵、校准曲线和期望校准误差。但值得一提的是,本文在测试集上给出的混淆矩阵指标,是基于训练集预测概率分布的分位数进行评价的,简而言之,即按照训练集预测概率分布情况,将其等分10份后,分别在测试集上进行评价。这类似于设置不同的模型决策阈值进行评价。
筛选最优模型大多基于AUC值,但本文考虑了两个方面,其一是模型的预测准确性,如AUC、log loss等,其二是考虑变量的数目。即需要找到同时满足预测因素少且性能好的模型。eTable2展示了不同模型对应的预测性能和变量数,最终,作者选择GBM(58个变量)作为最优模型。本文变量重要性基于模型自带的feature importance,方法很传统,但结果展示有新意,即按照不同类别进行展示。例如,stressful experiences里面包含了8个预测因素。Figure3还有一点值得注意,这里的重要性是归一化的重要性,而非绝对重要性哦。进一步,作者还利用logistic回归逐个探究了预测因素与结局之间的关系(单因素回归)。
模型公平性指的是模型在不同人群中仍具有相似的性能。在往期推文中对该话题有所介绍,可参阅。要实现模型公平性分析,最简单的方法是开展分层分析,例如,分别构建男性和女性预测模型,比较其预测效果。但本文的做法很有意思,一口气同时做了年龄、性别、种族、民族上的模型公平性分析,到底怎么做的呢?原来,作者采用了带有交互项的logistic回归,其中,真实标签作为结局,预测概率作为其中一个变量,年龄、性别、种族和民族作为4个变量,同时将预测概率与4个变量构成交互项,这样一共9个变量用于logistic回归分析。如果回归分析结果显示交互项没有统计学意义,说明4个变量和预测概率不存在交互,即模型是公平的。如eTable5所示,交互项均无统计学意义,说明所构建的模型不存在歧视。
一点统计 统计学习第一站,陪有梦想的你一起成长,每晚22点22分准时分享。
283篇原创内容
公众号
,