点击上方蓝字关注,更多干货等你挖掘!
先给一个问题大家思考下:做预测模型时,往往会得到预测概率,但如何将预测概率转化为风险组呢?要回答这个问题,其实可以分两种情况:1)在多数情况下,我们一般把人群分为高风险和低风险。此时,可以直接使用决策阈值(多数默认为0.5)进行划分,即超过阈值就是高风险人群,低于该阈值就是低风险人群。这种方式简单,但比较粗糙。2)如果需要更精细划分,或者说要找到最理想的划分截点,以使不同风险组尽量区分开,怎么办?下面这篇文献,作者采用列线图预测脑卒中7年内发病风险,预测模型是十分常用的列线图。我们知道,列线图最终输出的是总得分,那如何基于该得分进行风险组的最优划分呢?
本文作者采用了一个小工具,称之为X-tile程序,这是一种专门用于寻找最优截断值的小工具。如下所述,作者基于列线图模型,将人群划分为3个风险组,截断值分别是119.2、146.8。
下图呈现的是X-tile程序的结果,3个不同颜色表示划分出的3种风险组。为什么是3个风险组?因为此时,不同组别之间的生存率(此处为脑卒中发生率)存在统计学差异,且P值最小。这就是X-tile寻找最优截断值的主要原理。
Reference: Development of a predictive risk stratification tool to identify the population over age 45 at risk for new-onset stroke within 7 yearsX-tile程序是耶鲁大学在2004年开发的一个小程序,十分简洁。简洁到它只有划分截断值这个功能,下图是软件的首页。对风险组划分感兴趣的朋友可以研究下哦。 一点统计 统计学习第一站,陪有梦想的你一起成长,每晚22点22分准时分享。
283篇原创内容
公众号
,