什么是双疾病分析?来看看本月最新8+双疾病生信文章

大笨钟 R Bioinformatics 2023-06-24 08:29 发表于天津

基于综合生物信息学分析和机器学习,筛选与慢性肾脏病和钙化主动脉瓣病相关的免疫相关分泌蛋白

#本文总共3578字,建议阅读5分钟

                   

大家好,今天小编和大家分享的是2023年6月发表在“Journal of Translational Medicine”( IF 8.44) 的一篇双疾病分析文章。


图片

文章链接:PMID: 37264340


 摘要

慢性肾脏病(CKD)是心血管疾病风险因素之一,与钙化主动脉瓣病(CAVD)等各种心血管疾病中有着密切的关系。本研究旨在探索与CKD相关且涉及CAVD发病机制的诊断生物标志物。作者从GEO数据库获取了三个CAVD、一个CKD-PBMC和一个CKD-Kidney的表达谱数据集。首先,通过差异表达分析和WGCNA,检测CAVD的关键基因和与CKD相关的分泌蛋白。随后,利用蛋白质相互作用(PPI)、功能富集和cMAP分析揭示了CKD相关CAVD的致病基因和潜在机制,以及用于CAVD治疗的潜在药物。然后采用LASSO回归和随机森林等机器学习算法筛选候选生物标志物,并构建用于预测CKD相关CAVD的诊断模型。利用ROC曲线、校准曲线和决策曲线评估模型的效能。最后采用CIBERSORT算法探索CAVD中的免疫细胞浸润情况。作者揭示了与CKD相关的CAVD的炎症免疫途径,并开发了基于SLPI/MMP9的CAVD诊断列线图,为CKD伴发CAVD的诊断和治疗提供了新的见解。

         

    

结果解读

(一)鉴定钙化性主动脉瓣疾病中的差异表达基因

图1展示本研究的工作流程。


图片图片图1

从GEO数据库中收集了三个钙化和对照主动脉瓣样本的原始数据集,经过批次校正,得到了集成的CAVD数据集,并进行了归一化处理,其中包括CAVD组中的34个钙化样本和对照组中的23个对照样本。如图2A和B所示,在批次效应去除后,三个数据集之间的差异显著减小。在合并的钙化和对照主动脉瓣样本之间进行差异分析,发现了173个差异表达基因(DEGs),采用的筛选标准是调整后的p值≤0.05和|log2(折叠变化)| ≥ 1,其中包括119个上调基因和54个下调基因。使用火山图和热图描述了集成CAVD数据集中DEGs的表达模式(图2C和D)。


图片2

(二)WGCNA分析

为进一步探索CAVD中的关键基因,采用加权基因共表达网络分析(WGCNA)来识别钙化主动脉瓣样本中最相关的基因模块。根据规模独立性和平均连接性,选择了软阈值为5(图3A)。该阈值下生成了14个模块,并在图3B中呈现了模块的聚类树状图。模块特征基因的聚类显示在图3C中。此外,本研究还探索了CAVD与基因模块之间的相关性(图3D)。数据显示,粉色模块与CAVD呈最高正相关(358个基因,r = 0.84,p = 5e-16),而黄色模块与CAVD呈最负相关(769个基因,r = -0.72,p = 2e-10)。基于此,粉色和黄色模块被视为后续分析的关键模块。此外粉色(r = 0.4,p = 3.5e-15)和黄色模块(r = 0.6,p = 2.2e-76)的模块成员与基因重要性之间存在强相关性(图3E,F)。粉色和黄色模块中识别了与CAVD显著相关的1127个关键基因。钙化主动脉瓣样本中的DEGs和WGCNA中的关键基因取交集,共获得124个基因用于后续分析(图3G)。


图片图3

(三) 鉴定慢性肾脏疾病中差异表达的分泌蛋白质

众所周知CKD与CAVD存在因果关系,并可能加速CAVD的发生和进展。为了研究参与CKD相关CAVD的致病基因,作者分析了来自GEO数据库的CKD外周血单个核细胞(PBMC)和CKD肾组织的表达谱。如图4A和D所示的火山图和热图,CKD PBMC中共鉴定出2681个DEGs,而CKD肾组织中共发现4111个DEGs,符合调整后的p值≤0.05和|log2 (fold change)| ≥ 0.585的阈值。考虑到CKD可能主要通过释放分泌蛋白质促进CAVD的发生和发展,作者将3970个分泌蛋白(值得借鉴,从HPA获取) 分别与两个数据集中的DEGs取交集,总共鉴定了983种CKD相关的分泌蛋白(图3E,F)。


图片图4

(四)CKD相关CAVD中涉及的致病基因的蛋白质相互作用网络和功能富集分析

为了揭示CKD相关CAVD的潜在致病基因和潜在机制,从STRING数据库获取了CKD相关分泌蛋白质与CAVD关键基因的相互作用。利用MCODE确定了前两个最显著模块,其中76个基因被鉴定为CKD相关的致病基因(图5A和B)。为了更好地理解致病基因的功能和特定机制,使用DAVID在线数据库对76个基因进行功能富集和KEGG分析。GO的生物过程(BP)分析显示,CKD相关CAVD的致病基因主要富集在“炎症反应”和“免疫反应”方面(图5C)。在细胞组分(CC)的GO分析中,致病基因主要位于“膜的整体成分”和“细胞外区域”(图5D)。在分子功能(MF)分析方面,结果表明,“蛋白质结合”和“相同蛋白质结合”是致病基因的最相关项(图5E)。KEGG通路分析显示,CKD相关CAVD中的致病基因与“细胞因子-细胞因子受体相互作用”、“PI3K-Akt信号通路”和“NF-Kappa B信号通路”密切相关(图5F)。


图片5

(五)鉴定CAVD治疗的候选小分子化合物

为进一步研究可能在CKD相关CAVD患者中发挥治疗作用的潜在小分子药物,将CKD相关致病基因中在钙化主动脉瓣样本中上调的基因导入到 cMAP 数据库中,以预测可以逆转CAVD中CKD相关致病基因表达改变的小分子化合物。经过显著性查询,选择了得分最高的前10个化合物,包括metyrapone、gefitinib、dilazep、aminopentamide、methoxsalen、forskolin、CGP-37157、IKK2-inhibitor、vidarabine和TG-101348,被认为是CKD相关CAVD治疗的潜在药物治疗剂(图6A)。这些10个化合物的靶向途径描述和化学结构显示在图6B、C中。


图片6


(六)通过机器学习筛选具有诊断价值的关键基因并构建CKD相关CAVD的诊断模型

由于CAVD和CKD的共同差异表达分泌蛋白可能在CKD相关CAVD患者中起关键作用,通过将CKD相关分泌蛋白与CAVD的关键基因进行比较,鉴定出了17个共同基因(图7A)。采用LASSO回归算法识别出17个共同基因中对CKD相关CAVD患者诊断有重要影响的八个潜在候选基因(图7B,C)。为了进一步缩小诊断生物标志物范围,还使用随机森林算法根据每个基因的变量重要性对17个共同基因进行排序,并提取MeanDecreaseGini>2的基因(图7D)。只有两个关键基因在两个子集中重叠,分别是 SLPI 和 MMP9(图7E)。


图片7


为了获得更好的诊断和预测性能,通过逻辑回归分析基于这两个关键基因构建了诊断模型的图谱(图8A)。ROC曲线评估每个关键基因和图谱的曲线下面积,以确定其对CKD相关CAVD的诊断效能的敏感性和特异性。两个关键基因显示出AUC值>0.9,而图谱的AUC值高于每个关键基因,这表明图谱可能对CKD相关CAVD具有很强的诊断价值(图8B-D)。校准曲线显示构建的图谱诊断模型的预测概率与理想模型几乎相同(图8E)。此外,DCA结果显示根据图谱模型进行决策可能有助于CKD相关CAVD的诊断(图8F)。硬化是CAVD的早期阶段。在GEO数据库的GSE51472数据集中,该数据集包括5个人类硬化主动脉瓣组织样本和5个人类正常主动脉瓣组织样本。图谱模型在这些CKD患者中展示了理想的预测价值(图8G),证实模型对于患有CKD的早期CAVD患者可能具有良好的诊断效能。


图片8


(七)CAVD中免疫细胞浸润和与侵袭性免疫细胞相关性分析

作者进一步使用CIBERSORT算法来获取免疫细胞的特征并探索免疫调节以及诊断生物标志物与CAVD中免疫细胞浸润的相关性。图9A显示了每个样本中22种免疫细胞的比例,并在10个免疫细胞亚群中观察到钙化和对照主动脉瓣样本之间的显著差异。与对照组相比,CAVD显示出较高比例的巨噬细胞M0、CD8 T细胞和调节性T细胞(Tregs),而较低比例的B细胞naive、活化树突状细胞、巨噬细胞M2、活化肥大细胞、活化NK细胞、浆细胞和CD4 naive T细胞(图9B)。此外,对22种免疫细胞类型进行的相关性分析显示,CD4 naive T细胞与Tregs呈显著正相关(r = 0.57,p < 0.05),而活化肥大细胞与活化树突状细胞呈负相关(r = -0.68,p < 0.05)(图9C)。此外,进一步探索了两个核心基因与不同浸润免疫细胞类型比例之间的关联。如图9D所示,核心基因SLPI和MMP9都与CAVD中的免疫细胞浸润显著相关。


图片图片9


(八)内部队列评估核心基因的表达模式验证以及诊断模型

收集人类钙化(n =7)和非化对照(n =5)主动脉瓣活检组织,以及来自健康对照个体(n =24)、CAVD患者(n =24), 患有CAVD的CKD患者(n =10)和不患有CAVD(n =22)的CKD患者的人血清样品。在组织样本中进行RT-qPCR检测,结果显示,与对照主动脉瓣样品相比,钙化主动脉瓣样品中两个hub基因的表达一致上调(图10A)。此外,ELISA检测显示SLPI和MMP9可以在血清中检测到,并且在CKD和CAVD患者以及患有CKD的CAVD患者中水平显著升高(图10B)。然后基于作者的内部队列开发了一个CAVD诊断评分模型(称为评分模型A),用于预测对照组和CAVD组中患有CAVD的可能性(图10C)。根据ROC曲线,在对比每个生物标志物的AUC后,评分模型A在对照组和CAVD患者之间展现了最高的AUC值(图10D)。此外,校准曲线和DCA评估评分模型A显示,基于评分模型A进行决策可能有助于CAVD的预测(图10E、F)。此外,还构建了另一个诊断评分模型(称为评分模型B),用于区分患有或不患有CAVD的CKD患者(图10G)。类似地,ROC曲线、校准曲线以及DCA结果显示评分模型对于患有CAVD的CKD患者具有理想的预测价值(图10H-J)。


图片图片10


总结

本研究使用机器学习算法建立CKD相关CAVD的诊断模型,利用自有队列进行表达实验和模型评估来进一步提升创新性。差异分析,WGCNA,机器学习,药物筛选,免疫浸润,多种诊断模型构建,并巧妙的结合了蛋白数据,逻辑清晰,工作量够大,值得大家借鉴与学习。目前双疾病分析也内卷了起来,算是发一个少一个,有想法的同学得加快速度啦。今天的分享到此结束,对本研究感兴趣的小伙伴可自行下载原文学习。


如有生信分析需求可扫描下方二维码添加小编微信进行咨询。

图片





收录于合集 #非肿瘤
 14
上一篇8+ 最新非肿瘤疾病分型及生物标志物鉴定生信分析

微信扫一扫
关注该公众号