生存预后模型,经久不衰的“新套路”!

SHZ 生信人 2023-07-09 07:02 发表于北京

哈喽,大家好啊 ,又好久不见了!小编回归的7月,就先给大家分享一篇简单的生信预后类文章吧!虽说这是一篇比较中规中矩的经典生信套路文章,影响因子也不是很高,但我们还是可以从中学到一些作者思路设计的小技巧!不妨往下接着看~

         

图片

         

数据来源

1. TCGA数据库:554名前列腺癌患者的FPKM数据(Fragments Per Kilobase of exon model per Million mapped fragments,每千个碱基的转录每百万映射读取的fragments),临床生存数据和肿瘤基因突变相关数据。


2. GEO数据库:GSE70770、GSE46602、GSE2443、GSE5377、GSE5803、GSE29650、GSE32269、GSE74685、GSE6811、GSE46002和GSE60329


3. The Fudan Data Portal for Cancer Genomics数据库:MSKCC数据集


4. Garg AD et al.文献:获取33个人类ICD相关基因


5. HPA数据库:免疫组化染色结果


背景介绍

免疫原性细胞死亡(ICD)在肿瘤进展和免疫反应中起着至关重要的作用。然而,ICD相关基因和亚型在前列腺癌(PCa)肿瘤微环境(TME)中的作用仍然未知。

为了评估前列腺癌与ICD反应之间的关联,作者根据ICD相关基因确定了前列腺癌人群中具有不同ICD水平的亚组。利用ICD组间差异表达基因(DEGs)建立预后风险模型,分析不同ICD水平患者预后和免疫微环境的差异。结果表明,这种新的ICD相关风险模型可用于预测前列腺癌的预后并评估免疫环境。


结果解读

1. ICD和PCa

作者在Garg AD等人发表的文献中选定了33个人类ICD相关基因,所有这些基因都可以作为ICD相关的危险信号或调节分子。在TCGA-PRAD样本中,19个ICD基因表现出不同程度的突变,大多数为错义突变,总体突变频率为5.57%,其中,PIK3CA的突变频率最高(图1A)。同时,作者观察到ICD基因存在不同程度的CNV变异(图1B),HMGB1, HSP90, IL17RA, CD8A, CALR, IL1B, IL17A, IFNB1等表现出广泛的CNV缺失,有32个基因在染色体上表现出CNV变异(图1C)。此外,23个ICD基因在良性肿瘤(n = 52)和前列腺癌(n = 501)之间表现出显著的差异表达(图1D)。这些结果可能表明ICD与前列腺癌之间存在潜在关联。


图片

图1 PCa中的ICD相关基因突变和CNV分析


2. PCa 中的 ICD 亚型

作者将GSE70770队列、MSKCC队列和TCGA-PRAD的数据整理合并,命名为“共同矩阵,这个共同矩阵包含来自901例患者的近18,000个基因表达数据。作者从中提取先前确定的33个人类ICD相关基因的表达数据,生成PCa患者的ICD基因表达谱。一致性聚类将901名患者分为两个亚组:ICD相关基因高表达组(ICD-H)和ICD相关基因低表达组(ICD-L)(图 2A)。Kaplan-Meier 分析结果表明,ICD-H 组和 ICD-L 组之间的 PFS 存在显著差异 (p = 0.002) (图2B)。ICD-H的TME表现出更丰富的T细胞、B细胞和树突状细胞浸润(图2C)。为了从ICD表达水平的角度解释患者分层现象,作者分析了临床信息和ICD基因在不同人群中的分布(图2D),确定了ICD-H和ICD-L亚型之间的差异,如ICD-H中IL6,IL1B,IL10和其他白细胞介素的表达更高。相比之下,HMGB1在ICD-L中更活跃。GSVA分析揭示了ICD-H的主要功能通路包括T细胞受体信号通路、MAPK信号通路和JAK-STAT信号通路,间接表明ICD-H具有活跃的免疫功能。同时,ICD-L主要参与DNA合成、碱基切除修复和不饱和脂肪酸合成(图 2E)。

         

为了进一步分析,作者结合901例患者的全基因组数据,在ICD-H和ICD-L之间筛选了120个ICD- DEGs(图2F)。这些DEGs的功能主要集中在TNF信号通路、NF-kappa B信号通路、IL17信号通路等相关通路(图2G)。


图片

图2 通过一致性聚类获得的不同聚类亚型之间的临床特征、生存期和肿瘤免疫微环境之间的比较


3. PCa 中的基因亚型

对 120个 DEGs 数据集进行单变量 Cox 回归分析,共产生 70 个预后相关基因 (PRGs)。基于PRGs,对901例患者进行聚类分析,将人群分为三组(A,B和C)(图 3A)。K-M生存分析显示,三组患者的生存差异显著(p< 0.001),其中C组患者的生存预后最好(图3B)。在热图中还观察到三组之间的基因表达差异,以及C组和ICD-H组之间的高度重叠(图3C),表明免疫细胞浸润更丰富(图3D)。在这项研究中,将共同矩阵中具有完整生存信息(生存时间、生存状态和PRGs表达)的患者队列按照7:3的比例,随机将其分配到训练集(n = 579)和测试集(n = 248)。通过在训练集中使用LASSO回归方法,并设置10倍交叉验证,获得了最优模型(图 3E、F、G)。


图片

图3 根据PRGs进行共识聚类和LASSO分析


4. 风险签名

筛选四个风险基因(TIPARP,SERPINA3,MT1M和CST2)后,每个样本根据以下公式获得风险评分:risk_score = exp(CST2) * 0.1095 − exp(TIPARP) * 0.2893 − exp(SERPINA3) * 0.2235 − exp(MT1M) * 0.1915。将训练集中的中位风险评分(-3.9943)设置为临界风险评分,以区分患者的风险水平。随后,训练组和测试组的生存分析表明,由该特征确定的风险分层可以帮助预测PFS(图 4A、B)。ROC曲线用于评估风险评分的敏感性和特异性。训练组的1年、3年和5年AUC值分别为0.749、0.688和0.652(图4C),测试组的AUC值分别为0.742、0.731和0.704(图4D)。值得注意的是,外部测试集(GSE46602)与训练组的结果一致,高危患者的PFS较短(图 4E)。

         

将整个数据(训练组和测试组)的临床数据和风险评分结合起来,构建一个可以预测疾病进展的列线图(图4F)。ROC曲线显示列线图对PFS具有良好的预测能力,表现出较高的准确度,1年、3年和5年生存期的AUC值分别为0.760、0.780和0.704(图4G)。列线图对1年、3年和5年的预测能力与理想模型的预测能力高度吻合(图4H),模型的一致性指数C-index为0.73,表明模型的准确性较好。对于风险基因,TIPARP、SERPINA3和MT1M在低风险组中的表达更活跃(图4I-J),而CST2是高危组中唯一的高表达基因。结合ICD基因分析发现,CST2作为高危因子,与IL6呈显著负相关,而TIPARP、SERPINA3和MT1M与IFNGR1、HSP90AA1和HMGB1呈显著正相关(图4K)。ICD水平与树突状细胞(DC)活性呈强相关,结合免疫细胞分析发现CST2与静息DC活性呈显著正相关,而SERTAD3与活化DC活性呈显著正相关。TIPARP和MT1M也与巨噬细胞和CD4 + T细胞活性有关(图 4L)。


图片

图4 风险模型在训练组、测试组和外部测试集中的预后值

         

5. 不同分层之间的关联

ICD-L组的风险评分低于ICD-H组(p<0.001)(图 5A)。A组、B组和C组之间的风险评分也存在显著差异,C组的风险评分最低(p<0.001)(图5B)。“低风险组 C-ICD-H”人群表现出高度重叠(图5C)。关于高风险和低风险评分在免疫微环境的差异,低风险组的免疫细胞浸润评分较高(图5D), 而TMB较低 (图 5E)。“ICD-H”(图5F)和“C组”(图5G)人群的TMB水平也较低,这与更好的生存预后相对应(图5H)。

         

风险评分和TMB联合分析发现,“高危组-高TMB组”患者预后最差,其他3种组合间PFS差异无统计学意义(图5I)。低危组(图5J)和ICD-H组(图5K) 的PD-L1 (CD274)、IDO1和LAG3表达较高,而C组PD-1、PD-L1、CTLA4、IDO1和LAG3表达较高(图5L)。然而,高危人群的CNV水平较高(图5M, N),干细胞分化较差(图5O)。


图片

图5 不同分层之间的关联和区别


综上所述,可能有一组C组为代表的预后良好、ICD水平高的前列腺癌患者,这些患者可以通过本研究提出的风险预后模型来识别。该组可能从免疫治疗中受益,因为它们显示出更高的免疫检查点基因表达,更低的TMB和更丰富的免疫细胞浸润。识别这些患者可能有助于定制个性化的治疗方法,最终改善前列腺癌患者的预后。

         

6. 构建ANN模型

考虑到前面的患者的完整生存数据有限,作者试图创建一个更大的数据集进行分析,从而进一步提高对前列腺癌进展的预测能力。于是从GEO平台获得了9个数据集。这些数据集被随机分配以创建五个训练集(GSE2443,GSE5377,GSE5803,GSE29650和GSE32269)共154个样本,去除正常前列腺和不完整数据样本后减少到144个样本,包括60个HSPC样本和84个CRPC样本。四个测试集 (GSE74685,GSE6811,GSE46002和GSE60329)共370个PCa样本,包括118个HSPC样本和196个CRPC样本,其余56个样本没有明确信息记录或属于正常前列腺组织。

         

按照预设的筛选条件(p< 0.05,log2 FC< 1.5),根据训练组鉴定出8个差异表达基因(MYLK、SPP1、ACTG4、PCaP3、MSMB、KLK1、HBB和AZGP7) (图 6A、B)。SPP1和HBB是CRPC中上调的基因,而其他基因是下调基因。采用随机林树分析筛选DEGs基因,可以有效区分PCa类型(HSPC/CRPC)。决策树的最佳数量为 68 (图 6C-D)。所有八个DEGs都包含在RFG中,用于后续的模型构建。利用神经网络算法对各RFG的权重值进行优化,得到最终的ANN模型(图6F)。训练集HSPC组的60个样本中有53个被准确预测,而CRPC组的84个样本中有81个被准确预测。ANN模型的AUC为0.983(图6F).

         

在测试集中测试ANN模型的准确性,发现118个HSPC样本中有83个被准确预测,CRPC组196个样本中有123个被准确预测,AUC为0.718(图6G)。这些结果证实,八个选定的基因可有效预测前列腺癌的进展。最后,分析RFGs与风险评分(RS)的潜在关联,发现两个CRPC上调基因SPP1和HBB与风险基因CST2显著正相关。TIPARP、SERPINA3、MT1M这三个“保护”因子与CRPC下调基因显著正相关(图6H)。这表明四种预后模型基因与前列腺癌患者的临床进展密切相关


图片

图6 构建ANN模型预测前列腺癌进展


7. 实验验证

我们使用qRT-PCR测量正常前列腺组织细胞RWPE-3和不同肿瘤细胞状态(如LNCaP和C1-2细胞系)中四个风险基因(TIPARP,SERPINA1,MT4M和CST2)的相对mRNA表达水平。结果显示,随着细胞状态从正常变为肿瘤,CST2的mRNA表达水平增加。与RWPE-1相比,LNCaP和C4-2细胞中的MT1M和TIPARP水平明显较低。SERPINA3水平在LNCaP细胞系中显著升高,但在C4-2和RWPE-1细胞系中较低(图 7A-D)。此外,检索免疫组织化学(IHC)染色结果后,HPA数据库中正常组织和肿瘤组织中CST2和SERPINA3的图片相似。与正常组织中相比,PCa组织中CST2的相对蛋白表达水平显著高于正常组织(图 7E),并且在相应的组织中,SERPINA3也有类似的结果(图7F)。蛋白质印迹(WB)结果还显示,CST2(图7G) 和 SERPINA3 (图7H)在C4-2细胞系中显著高于前列腺细胞RWPE-1。


图片

图7 实验验证风险基因的预测能力

         

到此,整篇文章的分析就结束了,乍一看,这不就是很常规的预后风险模型的文章套路吗?但是,我们仔细研究不难发现,这篇文章还是有作者的小心思的!首先,作者不是上来直接筛选正常组织和肿瘤组织的差异表达基因,而是选择了一个切入点“免疫原性细胞死亡(ICD)”,瞬间将文章的档次拉高;其次,作者步步为营,通过ICD基因将患者分为ICD-H组和ICD-L组,然后在这2组中继续进行差异基因分析,获得了120个DEGs,进一步对DEGs进行分析,获得了70 个预后相关基因 (PRGs),根据PRGs将患者重新分成预后存在显著差异的A、B、C三组,构建风险模型,同时又将这预后不同的三组与ICD表达水平不同的两组进行交叉比较,反复横纵对比,往往更能发现问题!作者认为可能有一组C组为代表的预后良好、ICD水平高的前列腺癌患者,这些患者可以通过本研究提出的风险预后模型来识别。你以为到此就结束了?不!作者继续创建一个更大的数据集进行分析,构建ANN模型,验证模型预测前列腺癌进展的能力。除此之外,作者还进行了基础实验验证,可以说是一篇非常完美的“干湿结合”文章。


最后,再通过一张流程图,回顾下文章的整体思路吧,希望能对比有所启发!


图片

文章思路流程图


参考文献:

Kang Z, Sun JB, Lin F, Huang XY, Huang Q, Chen DN, Zheng QS, Xue XY, Xu N, Wei Y. Subtype and prognostic analysis of immunogenic cell death-related gene signature in prostate cancer. Front Oncol. 2023 Jun 6;13:1160972. doi: 10.3389/fonc.2023.1160972. PMID: 37346077; PMCID: PMC10279955.


往期热点 (点击标题跳转)

01

线粒体质量控制

02

孟德尔随机化

03

成纤维细胞(CAFs)

04

单细胞空间转录组

05

肿瘤相关巨噬细胞(TAM)

06

细胞死亡

07

耐药



图片

公众号改版,添加微信,

防止失联,仅用于文章分享


图文排版|CY

文章转载请联系 | 15510012760(微信)

广告商务合作 | 18501253903(微信)



微信扫一扫
关注该公众号