LASSO+逻辑回归+多模型比较+SHAP=Journal of Clinical Medicine(IF=4.964)

小丑八怪 极智分析 2023-04-20 20:00 发表于江西
图片

点击蓝字 关注我们

图片

小编今天解读的是Journal of Clinical Medicine(IF=4.964)上发表的一篇文章《Establishment and Validation of Predictive Model of T ophus in Gout Patients》,本研究旨在研究痛风患者痛风石的发生情况,并建立预测模型,评价其预测效果。

图片
图片


下面具体看看该用户是如何在极智分析平台上完成对数据进行分析的。


01背景介绍

痛风是一种炎症性疾病,由尿酸单钠(MSU)晶体在关节和非关节结构中沉积引起。痛风患者经历各种症状,包括剧烈疼痛、急性和持续性炎症性关节炎,以及与慢性病相关的症状。随着痛风的进展,以痛风为特征的晚期疾病的临床症状可能会出现,主要是由于MSU的持续沉积而导致的慢性肉芽肿复发。

机器学习(ML)是一个新兴的医学领域,它代表了一套强大的算法,能够表示、适应、学习、预测和分析数据;此外,ML被认为是生物医学研究、个性化医学和计算机辅助诊断的未来。因此,本研究使用多种ML分类模型构建预测模型。通过对痛风患者临床资料的收集整理,分析痛风形成的影响因素,为痛风形成的早期治疗提供临床依据。ML模型的应用显示了准确的个体预测和良好的临床应用前景。



02材料和方法

1. 数据和患者

2018年1月1日至2022年6月30日,792例痛风患者在某医院风湿免疫科就诊。

纳入标准如下:(1)符合ACR/EULAR于2015年制定的痛风诊断标准;(2)知情同意和自愿参与研究;(3)具有完整的临床数据。

排除标准如下:(1)患有慢性心功能不全、肝脏疾病、恶性肿瘤、精神疾病等严重疾病的患者;(2)服用某些药物(如利尿剂、阿司匹林、细胞毒性药物、抗结核药物等)的患者;(3)无法配合、不愿参与或临床资料不完整的患者。


2. 统计分析

在从所有自变量中选择特征因子后,我们将痛风患者分为训练集和测试集。应用多个ML分类模型对不同模型的训练集和测试集中各指标的重要性进行综合分析、比较。此外,我们利用最优模型对结果进行了评估和验证。还开发了整体SHAP表示模型和单样本解释。

变量都包括在训练集和测试集之间的比较中。连续变量表示为中位数和四分位数区间(IQR),并使用Mann-Whitney U型检验进行比较。分类变量以数量和百分比表示,并使用卡方检验进行比较。双侧p值小于0.05被认为具有统计学意义。使用SPSS(25.0版)、R(3.6.1版)和Python(3.4.3版)进行统计分析。



03结果

1.基线分析

最终702名痛风患者纳入了,分析最终训练集和测试集的具体基线数据如表1所示。两组之间无显著性差异(p>0.05)。

图片



2.LASSO回归

对剩余的自变量进行LASSO回归分析(图1)。LASSO回归可以压缩可变系数以防止过度拟合,并解决严重的共线性问题。结果显示:(最小均方误差=0.024),42个自变量减少到11个,包括性别、成人依从性、BMI、病程、每年发作次数、饮酒史、痛风家族史、多关节受累、EGFR、血沉和UA。

图片



 3.逻辑回归

为进一步控制混杂因素的影响,对上述11个自变量进行多因素Logistic回归分析。最后,只有成人依从性、体重指数、病程、年发作次数(>12次)、饮酒史(每周饮用≥70g/饮酒年限≥10年)、痛风家族史、多关节受累、表皮生长因子受体和血沉被确定为特征因素,如表2所示。

图片



4.分类多模型的综合分析

XGBoost、Logistic、LightGBM、RandomForest、AdaBoost、MLP、支持向量机、KNN和GNB被训练并重复10次。使用曲线下面积(AUC)值对模型进行评估,结果表明XGBoost、LightGBM和RandomForest在训练集中最高,Logistic在测试集中最高(图2a,b)

AUC指标侧重于模型的预测准确性,并不能判断模型是否可用于临床或两者中的哪一个更可取。因此,对DCA、校准曲线和PR曲线进行了分析。DCA评估Logistic和RandomForest是否具有更好的临床适用性(图2c)。校准曲线显示GNB和Logistic模型预测的准确性更高(图2d)。在训练和测试集中,Logistic模型显示了最佳性能,在测试集中具有最高的AP值(图2e,f)。全面分析表明,Logistic模型可以被认为是最优模型。

图片



5.最佳模型构建与评估

对训练集进行Logistic回归分析和10倍交叉验证。结果表明,训练集的平均AUC值为0.876(0.838-0.914),验证集的平均AUC值为0.854(0.733-0.972),测试集的AUC值为0.888(0.839-0.937)(图3a-c)。训练集、验证集和测试集的AUC最终稳定在0.85左右,模型预测效果准确。当验证集在AUC指数下的性能低于测试集或比率低于10%时,可以认为模型拟合成功,学习曲线表明训练集和验证集具有较强的拟合能力和较高的稳定性(图3D)。这些结果表明,Logistic回归模型可以用于数据集的分类建模任务。

图片




6.模型可解释性

为了直观地解释所选择的变量,我们使用Shap来说明这些变量如何预测模型中痛风石的形成。图4a显示了我们模型中最重要的九个特性。在每一条特征重要线上,所有患者对结果的归因用不同颜色的圆点绘制,其中红点代表高风险值,蓝点代表低风险值。体重指数和服药依从性降低(MRP<60%),病程较长,年发作次数高(>12次),过度饮酒,痛风家族史,多关节受累,EGFR降低,以及血沉升高会增加痛风患者痛风石的形成。

图4b显示了用平均绝对SHAP值对九个风险因素进行排序,x轴为表示预测模型重要性的SHAP值。此外,我们还提供两个典型的例子来说明该模型的可解释性,一个是没有痛风石的痛风患者,其SHAP预测得分较低(0.027)(图4c),而另一个患有痛风石的患者的SHAP得分较高(0.978)(图4d)。

图片



04结论

结论:

总之,本研究在ML模型的基础上构建了一个预测模型,逻辑回归模型在本研究中表现出更好的性能。此外,我们提供了一个由SHAP解释的痛风患者痛风石发展的个性化风险评估。这种有效的计算机辅助方法可以帮助一线临床医生和患者识别和干预痛风石的发生。


局限性:

1.没有包含或排除痛风的黄金标准。

2.本研究的样本量相对较小,数据收集在单一机构,不是多中心研究。因此,这些结果具有有限的普遍性。

3.虽然训练集和测试集内的重复性分析达到了很高的一致性,但由于分割的不确定性,可能会出现一些不可避免的错误。

4.这项研究的设计没有包括一些变量,如24小时定量尿酸和关节超声在分析中。还需要进行纵向或前瞻性的病例对照研究,以进一步解释危险因素和足癣形成之间的关系。


小编说明:

本研究的分析步骤如下:

1.筛选特征因素:LASSO回归和逻辑回归。

2.数据划分:痛风患者按7:3的比例随机分为训练组和测试组。

3.分类多模型综合分析:多种机器学习模型的对比分析。

4.最优模型的训练、验证和测试:使用最优对训练集进行10次交叉验证,并与测试集进行评估。

5.模型可解释性:绘制对模型重要性和贡献度的Shap解释,并通过计算各特征对预测结果的贡献来解释模型结果。

研究中的统计分析部分均可以在极智分析平台上一键实现,后续我们将给大家带来相应的复现视频讲解,这篇影响因子4+的文章就介绍到这里,感兴趣的小伙伴可以先尝试模仿分析。

结语

临床研究的根本使命是发现并解决生命科学领域亟待解决的临床问题,同时,为即将发生的临床难题提供备选解决方案。

打开极智分析—智能医学统计分析平台 https://www.xsmartanalysis.com/ 进行实操吧!


往期精彩回顾

【1】NHANES数据库+机器学习+前瞻性队列研究=Clinical Nutrition(IF:7.324)

【2】动态预测模型+人工智能= Lancet Digit Health(IF=24.519)

【3】逻辑回归+ROC曲线+生存分析=CTC检测模型优化(IF=4.026)

【4】相关性分析+机器学习回归=晚期糖基化终产物预测模型(IF=5.743)

【5】极智分析+RCS+趋势分析+LASSO+ML+动态列线图=Translational Pediatrics(IF=4.047)

图片

扫二维码

图片

关注我们

公众号|极智分析

知乎|极致分析

B站|极智分析



微信扫一扫
关注该公众号