点击上方蓝字关注,更多干货等你挖掘!本文预测的是腹股沟疝术后患者发生静脉血栓栓塞的风险。在预测因素纳入上还是有一定特色的,包含了两个不同时段的因素,分别是术前和术后,并且后文也基于这两个角度进行模型构建。本文特征选择使用的不是一种特定算法,而是一种思路,即序列前向选择思路。简单来说,按照变量的重要性大小,逐个纳入预测因素,当新纳入的变量能提升性能时,则纳入,否则剔除。另外,本文对于术前和术后因素,是分开进行特征选择的。流程图简单,但十分清晰,将样本筛选和模型构建有机融合,也是一种不错的呈现方式。预测性能除了用表格呈现,不妨试试用图形吧。例如本文将AUC结果以图形和表格结合的形式呈现,实在是值得借鉴哦。变量重要性分析部分,作者不仅给出了表格排序,同时还以雷达图形式呈现,也是十分值得借鉴的哦。值得注意的是,在表格呈现部分,很多研究者往往只呈现重要性高低,而未给出影响方向。但本文作者的做法是,用+和-表示影响方向,也是十分值得借鉴的。本文结局同样不平衡,使用的模型评估指标主要是传统指标,如AUC、准确率、灵敏度、阳性预测值和F1。可以发现,模型的阳性预测值极低、灵敏度也很低。因此,如何提升不平衡预测效果是一个老大难的问题。
Reference: Machine Learning to Dynamically Predict In-Hospital Venous Thromboembolism After Inguinal Hernia Surgery: Results From the CHAT-1 Study 一点统计 统计学习第一站,陪有梦想的你一起成长,每晚22点22分准时分享。
265篇原创内容
公众号
,