2区7+!TCGA+scRNA-seq+机器学习,糖酵解相关分子在结直肠癌患者中的研究

中科生信 中科生信 2023-09-20 21:19

大家晚上好!今天小编和大家分享一篇235月发表在(IF:7.300)杂志的文章《Machine learning-based glycolysis-associated molecular classification reveals differences in prognosis, TME, and immunotherapy for colorectal cancer patients》。作者通过共识聚类以及机器学习等方法,系统性地分析了糖酵解相关分子在结直肠癌患者中的突变、生存以及肿瘤微环境之间的关联对于糖酵解相关方向的分析思路有兴趣的老师可以与我们联系,方法适用于其他分子。


背景
糖酵解是能量转化的关键形式,将葡萄糖转化为丙酮酸,最终产生乳酸并为肿瘤细胞提供氧非依赖性能量。即使在有氧环境中,肿瘤细胞仍然可以限制糖酵解的能量代谢,通常称为需氧糖酵解。通过减少细胞抑制和凋亡,糖酵解为肿瘤细胞生长创造条件。越来越多的证据表明,糖酵解与结直肠癌的发展有关。许多糖酵解相关基因,包括乳酸、GLUT1、丙酮酸激酶M2、甘油醛-3-磷酸脱氢酶、烯醇化酶-1、乳酸脱氢酶5和己糖激酶2,目前被发现在结直肠癌中上调。同时也有证据表明,糖酵解对于控制肿瘤细胞与肿瘤微环境(TME之间的相互作用至关重要。在这项研究中,作者使用无监督聚类方法使用糖酵解相关的基因对每个CRC患者进行分类。然后讨论了每个糖酵解相关簇(GAC)的临床、基因组学、TME和富集途径的特征。同时还将每种GAC类型映射到单细胞数据,分析了每个细胞中每GAC样亚型的分布和功能。基于上述发现,作者整合了单细胞和普通RNA-seq的结果,以开发一个模型来预测每个CRC患者的GAC并对其进行验证,并探索了其在治疗中的作用。

方法
1,k-means方法和ConsensusClusterPlus包进行了共识聚类
2,survival and survminer进行Kaplan-Meier生存分析
3,GSVA探索每个GAC富集的途径
4,CMScaller包确定CRC患者的CMS归类
5,Seurat包对scRNA-seq数据进行处理
6,metafor包中的rma功能确定重要的细胞亚型;
7,monocle3包进行拟时序分析;
8,glmnetrandomForestBorutaXGBooste1071caret包筛选重要基因;
9,pROCcaret包计算ROC曲线下的AUC面积;
10,pRRophetic包计算药物的半抑制浓度(IC50)值

技术路线

图片


研究结果
1.结直肠癌糖酵解相关分子簇的分类
研究技术路线如1MSigDB数据库HALLMARK_GLCOLYSIS)收集198个糖酵解相关基因进行进一步研究。采用GO富集分析发现这些基因主要富集到碳水化合物和衍生物(2A)PCA降维可视化TCGA COAD/READ数据集中正常组织和肿瘤组织之间糖酵解相关基因的分布结果表明糖酵解相关基因可有效将肿瘤与正常组织分离(2B)为了研究这些基因在肿瘤发生中发挥的潜在作用,我们使用共识聚类对TCGAGEO数据集CRC患者进行分类确定了三个糖酵解相关簇GAC如图2CT-SNE分析显示每种GAC的分布呈现显著异质性(2D)

图片


2.GAC之间的临床差异
GAC聚类的基础上,我们讨论了每GAC相应的临床特征。三种GAC的总生存期(OS)和无病生存期(DFS)的生存曲线表明GAC2的预后较差TCGA-OS: p = 0.05; TCGA-DFS: p = 0.03; GEO-OS: p< 0.001; GEO-DFS: p = 0.011, log-rank test)(2E–H)临床分期与GAC的关系表明,GAC2的比例随分期的进展而增加,GAC3的比例呈现相反趋势,这与GAC2的不良预后一致3C)。根据3AGAC1Kras突变比例较大,而GAC3Braf突变和MSI-H状态比例较高。此外,GAC2的年龄分布最年轻。因此以上结果表明GACs的临床特征具有异质性:1.GAC2预后较差,分期较晚,呈年轻化趋势;2.GAC3预后较好,分期较早,突变概率较高。3. GAC1在各种临床特征中处于中间位置。

图片


3.每个GAC分类的生物学差异和特征
利用“GSVA”算法,我们选择了四种表型(免疫相关、代谢相关、核苷和RNA相关和基质相关)进行热图展示2I)这些途径包含“C2.cp.kegg”, “C2.cp.reactome”“C2.go.bp”。通过“limma”的分析,确定了差异途径。结果表明GAC1富集在与核苷相连的途径中。GAC2与基质和免疫功能有关。免疫和代谢性状存在于GAC3中。在此基础上,我们讨论了GACCMS的关系创建了热图来显示GACCMS之间的关系(3A)令人惊讶的是,我们发现GAC1GAC2分别与CMS2CMS4重叠。而在GAC3患者中,CMS1CMS3占据相等且最大的比例(3AB)随后我们使用“CMScaller”包的经典途径进一步验证了这些发现。与CMS4相关的“EMT”“TGF-Beta”途径在GAC2中富集(3A)。我们用ssGSEA对糖酵解途径进行了量化,发现在GAC3中存在高表达3AD此外,糖酵解与WNTMSSLGR5干细胞、HNF4ACMS2CMS4负相关,而与MSI、脂肪酸、DNA修复、CMS1CMS3和细胞周期正相关(3F)GSE39582数据集的冲积图进一步证明GAC1指向CIN免疫下降和CIN Wnt-upGAC3指向dMMRKRASmGAC2指向其余(3E)最后,GAC1共享CMS2的大部分功能。GAC2CMS4最相似,GAC3具有CMS1CMS3的双重特征。

图片

 
4.scRNA-seq水平上将糖酵解相关簇映射到CRC细胞
我们通过GSE132465数据集进行预处理整合23个肿瘤样本bulk-seq的基础上进行单个细胞GAC分类的构建。基于Lee等人的研究进行细胞类型注释(4A)通过使用“AddModuleScore”,将三个类似GAC的子集群映射到单个细胞4B)此外,糖酵解相关基因标记(glygene)在4C表明其主要存在于骨髓、基质和上皮细胞中。随后我们将不同GAC添加到每种细胞类型4E)有趣的是,我们发现上皮细胞GAC1簇(69%)和GAC3簇(31%占比较多。虽然T细胞和B细胞与上皮细胞具有共同的GAC特征,但GAC3簇在这些细胞中的浓度高于GAC1样,表明其与上皮细胞不同。基质细胞几乎是GAC2簇(95%),髓样细胞中GAC265%GAC3簇占33%。每种细胞亚型的标记基因展示于火山图4D)。显然,髓系-G2中富含药物反应、DNA甲基化和谷氨酸代谢途径,而髓系-G3则相反。T细胞-G2对药物有良好的反应。B细胞-G12mRNA甲基化程度较高。重要的是,我们筛选出了与预后(OSDFS)最相关的GAC簇临床亚群,其中的标记基因用于后续GAC预测因子的分析Meta-pool分析显示T细胞-G2T细胞-G3、基质-G2、髓样细胞-G2和上皮细胞-G1具有重要意义,因此我们确定这五个GAC样亚群为独立的预后因素(4GH)

5.上皮细胞中两个GAC样子簇的分析
在上皮细胞中,类GAC亚簇和CMS亚型的分布如5AB。研究发现,CMSGAC类亚群之间的对应关系与bulk-seq的相当,表明了这种关系的稳健性。通过GO富集分析,我们发现上皮细胞-G3富集在转移特征中,而上皮细胞-G1则主要与RNA生物过程相关(5C)。同样,通过GSVA分析,我们在两种类型的上皮细胞中显示了50个标志性特征,证明了GAC3样的厌氧性状和GAC1样上调氧化磷酸化的能力(5E)。两种富集分析的结果显示,GAC1类上皮细胞会增殖,而GAC3类上皮细胞会入侵。此外,对两种上皮细胞亚型临床特征的研究也显示出了不同之处。在CMS亚型中,CMS2scRNAbulk-RNA水平上都是GAC1样,而在CMS1CM3中发现了相当一部分GAC3样,这与之前的结果一致。就分期而言,CRC中晚期患者的GAC1样上皮细胞比例增加。在突变方面,GAC1样上皮细胞中含有大量TP53APC突变,其他部位的突变不明显。对于MSS,大多数GAC3样细胞具有MSI-H特征(5D)。根据拟时序分析,上皮细胞将从GAC3样转变为GAC1样(5F)。同时,HLA-AHLA-B主要存在于GAC3样细胞中,表明这些细胞具有更强的免疫反应倾向(5GH)。最后,采用细胞通讯分析研究非肿瘤细胞对肿瘤上皮的影响。Sromal-G2和骨髓-G2与上皮细胞之间的连接频率较高,但Epthelial-G3B细胞G2的影响更大(5I)。气泡图特别显示了配体-受体网络,从中我们可以判断SPP1-CD44在骨髓-上皮相互作用中值得注意。CD44被认为可促进结直肠癌的干性和侵袭性。MDK配体与多种受体相关,以调节基质细胞和上皮细胞之间的相互作用。GZMA-F2RL1T细胞-G3和上皮-G35J)。最后,增殖型上皮-G1和侵袭型上皮-G3均受TME调控。

图片

 
6.GAC与肿瘤微环境的相关性
我们收集了两组TME细胞特征(LeeCharoentong)进行ssGSEA分析。与scRNA水平一样,我们发现基质细胞在bulk数据中主要集中在GAC2B细胞、骨髓细胞和T细胞聚集在GAC23中。上皮细胞的表达与scRNA的结果一致。值得注意的是,GAC2拥有更多的调节性T细胞(Tregs)(图6A)。在Charoentong的特征中,巨噬细胞、T细胞和B细胞的表达趋势与Lee观察到的结果相似(图6B)。Cibersort算法计算了每个细胞的表达比例。在Lee的细胞特征中,增殖性ECTME中的比例最高,增殖性巨噬细胞次之,其中GAC2的比例分别最低和最高(图6C)。在LM细胞特征中,同样的现象也出现在巨噬细胞中,而T细胞在所有细胞中所占比例次之,在GAC2中最低。值得注意的是,GAC2M2巨噬细胞的比例更高(图6D)。根据估算方法,GAC2GAC3的基质和免疫评分高于GAC1(图6E)。为了预测不同GAC对免疫疗法的反应,我们收集了MSSdMMRTMBPD-1信息。结果表明GAC3MSI-HighdMMR百分比更高(图6F),TMB得分更高(图6G)。而GAC2PD-1PDL-1CTLA-4表达相对较高(图6H-J)。Lee氏细胞的相关性见图6K,其中我们显示了糖酵解与每种细胞之间的关系。GAC1的免疫细胞浸润最少,GAC2有较多的基质细胞和免疫细胞,但也有很大比例的肿瘤促进细胞(TregsM2巨噬细胞),而GAC3有较高的免疫细胞浸润。总之,GAC1相当于免疫凋亡型,GAC2相当于免疫炎症/排斥型,而GAC3则相当于免疫激活型。

图片


7.基因簇的鉴定和描述
我们确定了基因簇,以研究GAC之间DEGs存在的内在原因。为了得到最终的DEGs,我们对每对GAC之间DEGs求取交集(图7A)。然后将108个基因进行共识聚类,得到了三个聚类,即基因簇(图7B)。从临床特征来看,我们发现基因簇B有显著的GAC2患病率和不良预后(图7C)。图7D显示了这108个基因的聚类表达模式和其他临床特征。从富集分析来看,基因簇AMSSMYC上调。在基因簇B中,分化、MSI、糖酵解和脂肪酸被高度富集。基因簇C中的TGF-BetaEMT被激活(图7E)。根据GO分析,基因簇BC与细胞外基质合成和上皮细胞增殖有关,而基因簇A则与T细胞活化和O-糖过程有关(图7F)。我们利用两个ssGSEA特征发现,基因簇C组在大多数TME细胞中有强表达。基因簇B的免疫细胞相对活化(图7GH)。综上所述,GACs的临床、生化和免疫学特征都得到了基因聚类的支持。

图片


8.GACTMBCNV、甲基化和CSC指数的探索
本节重点介绍肿瘤干性和基因组学的研究。我们使用瀑布图在COADREAD中显示了每个GAC的前10个突变基因。在COAD中,GAC1GAC2的突变相似,而在GAC3中,我们没有发现TP53的高突变率。在READ中,我们检测到FATA4的高突变率,特别是在GAC2中。APCTP53TTNKRAS是突变频率最高的基因(8AB)。此外,我们注意到TMB评分和糖酵解评分有良好的联系,GAC3具有高水平的TMB和糖酵解属性(8C)。同时,GAC3具有较低的拷贝数变异,表明与促肿瘤作用相反(8DE)GAC1的总体甲基化低于其他两种(8F)。通过CNV计算发现CSC指数与糖酵解评分呈正相关,GAC2CSC指数最低(8GH)。综上所述,我们认为GAC1为低甲基化类型,GAC2为低CSC类型,GAC3为低CNV和高TMB类型。

图片

 
9.基于机器学习的GAC预测因子构建和GAC预测因子相关基因(GP基因)的描述
我们使用四种机器学习方法为每个患者的GAC状态构建了一个预测模型。我们将TCGA称为训练集,将GEO称为验证集。整个过程显示在9A。为了确保结果的可靠性,我们在bulk和单细胞水平上使用具有临床意义的基因进行后续分析。因此,GAC DEGs与重要细胞亚型(4GH)获得。为了保留对预测结果影响最大的基因,我们使用LassoSVMRandomforestBoruta)和XGBoost进行筛选。雷达图表明,4种方法在测试集和训练集中的AUC值较高。我们再次交叉了通过四种机器学习方法过滤的基因,以获得最终的基因集,称为GP基因。随后,使用GP基因进行多项式逻辑回归,构建最终的GAC预测因子。将GAC预测因子应用于验证后,在训练集和验证集中,我们获得了高水平的AUC和准确度值(训练集:AUC = 0.9984,准确率 = 0.9658;验证集:AUC = 0.9380,准确率 = 0.8114)(9B)。我们进一步对GP基因进行了几项分析。热图显示了GP基因的表达顺序(9C)。对GP基因进行了基因组学相关研究,包括TMBCNV分析。我们发现EIF2S2DPM1ISG20作为CNV扩增,GMDSBNIP3LVCAN作为CNV缺失(9D)。所有GP基因均显示在染色体环图中(9F)。通过TMB分析,我们将VCANPXDNFN1NOTCH3鉴定为COADREAD9E)

图片

 
10.用于GAC预测因子验证的每个GAC和免疫治疗队列的治疗策略
化疗和靶向药物治疗可提高晚期结直肠癌的存活率。然而,一些患者仍然几乎没有获得任何益处或产生治疗耐药性。因此,有必要为每位CRC患者制定个性化的药物治疗方案。基于三种GAC在临床和生物学上的显著差异,我们假定每种GAC都有自己合适的治疗方法,然后研究了典型化疗药物和可能的小分子药物在三种GAC中的敏感性和拮抗作用。我们使用"pRRophetic "软件包和Cmap分析对每种GAC进行了治疗预测。如图10A所示,以IC50的形式得出了药物敏感性。对于GAC1,喜树碱和紫杉醇更敏感。吉非替尼和吉西他滨对GAC2的敏感性较高。ShikoninGAC3具有更大的治疗潜力。此外,我们还进行了Cmap分析,以获取抵抗每种GAC的潜在化合物。较强的化合物功效源于较低的分数。30种化合物在10B提供治疗策略。为了测试GAC聚类在免疫治疗队列中的作用,我们获得了两个数据集进行验证(IMVigor210GSE78220)IMVigor210中应用GAC预测因子后,我们发现GAC2预后不良(p = 0.004,对数秩检验),以及免疫治疗反应(10CD)GSE78220,得出的结论相同,即GAC2OS率不利(p = 0.128,对数排名检验)。即使GSE78220p值不显著,每个GAC的生存模式清晰可见(10EF)总体而言,我们探索了GAC的潜在化合物,并验证了GAC在免疫治疗领域的预测因子。

图片

 



图片


微信扫一扫
关注该公众号