预测变量+特征选择+预测流程图+性能展现+重要性分析+不平衡预测......

古月 一点统计 2023-04-25 22:22 发表于北京

点击上方蓝字关注,更多干货等你挖掘!

献给爱丽丝

一、预测变量
本文预测的是腹股沟疝术后患者发生静脉血栓栓塞的风险。在预测因素纳入上还是有一定特色的,包含了两个不同时段的因素,分别是术前和术后,并且后文也基于这两个角度进行模型构建。
图片

二、特征选择
本文特征选择使用的不是一种特定算法,而是一种思路,即序列前向选择思路。简单来说,按照变量的重要性大小,逐个纳入预测因素,当新纳入的变量能提升性能时,则纳入,否则剔除。另外,本文对于术前和术后因素,是分开进行特征选择的。
图片
图片

三、流程图
流程图简单,但十分清晰,将样本筛选和模型构建有机融合,也是一种不错的呈现方式。
图片

四、性能呈现
预测性能除了用表格呈现,不妨试试用图形吧。例如本文将AUC结果以图形和表格结合的形式呈现,实在是值得借鉴哦。
图片

五、特征重要性
变量重要性分析部分,作者不仅给出了表格排序,同时还以雷达图形式呈现,也是十分值得借鉴的哦。值得注意的是,在表格呈现部分,很多研究者往往只呈现重要性高低,而未给出影响方向。但本文作者的做法是,用+和-表示影响方向,也是十分值得借鉴的。
图片

图片

六、不平衡预测
本文结局同样不平衡,使用的模型评估指标主要是传统指标,如AUC、准确率、灵敏度、阳性预测值和F1。可以发现,模型的阳性预测值极低、灵敏度也很低。因此,如何提升不平衡预测效果是一个老大难的问题。
图片

图片

Reference: Machine Learning to Dynamically Predict In-Hospital Venous Thromboembolism After Inguinal Hernia Surgery: Results From the CHAT-1 Study

收录于合集 #文献速递
 132
上一篇男性乳腺癌预测模型:这篇文章都给你整得明明白白的!下一篇深度解读ROC曲线:不说全网最全,一定能增加你对ROC/AUC的全面理解!

微信扫一扫
关注该公众号