如何从大样本量组学分析中筛选到Biomarker?

萌神 基迪奥生物 2023-06-06 18:59 发表于广东
在前两篇推文中已经介绍了转录组和蛋白组大样本研究意义(戳链接)和分型分析的方法(戳链接),想再丰富一下文章内容就继续来看一下如何从中找到关键的生物标志物吧~

我们得到了样本的组学数据,可以基于基因的表达量和样本分组信息筛选biomarker(思路一、思路二),也可以再结合样本的临床、生理、生化等作为性状数据(思路三),整合基因表达量,筛选出基因表达对某种关键性状的影响的基因,常见方法如下。

思路一  差异分析+功能分析


这种思路是进行组学研究的基础,样本量多了也不例外,即对基因的表达量进行不同组间的差异分析或共表达分析,结合数据库注释结果,分析基因功能或互作关系,目的是找到有生物学意义的差异表达基因。


1


差异分析



基于表达丰度,寻找不同组间差异表达基因或蛋白。转录组差异分析常用DESeq2、EdgeR的方法,但也有研究发现,在大样本量的研究中这两种方法存在假阳性,建议使用Wilcoxon rank sum test非参检验进行分析(测试了100-1376个样本)[1]。蛋白组常用方差分析、T检验及基于DEqMS的R包进行差异分析。

此外,线性回归分析用于评估基因丰度与其他因素之间的关系,用于特征基因的筛选。线性,可以用一个量化的解释变量预测一个量化的响应变量;回归是通过历史数据进行预测。LASSO(Least Absolute Shrinkage and Selection Operator)是最常用的方法之一,以缩小变量集为核心思想的压缩方法,使某些不重要变量的回归系数变为0,从而选择对因变量影响较大的自变量并计算出相应的回归系数,进行下游分析,交叉验证用于确证结果中的取值是否最佳。

图片
图1用火山图[2]、热图[3]、折线图[4]描述特征基因,韦恩图[2]统计不同分组共有和特有差异基因。
在不同组中,基因表达差异越大,火山图中的点越离散(A);在热图中不同组颜色区分度更高(B);折线图(C)根据左图最低点确定罚分值,右图中每一条曲线代表一个基因,与最低罚分值相交的为最终纳入的变量,纵坐标为该基因对因变量影响大小的贡献度即回归系数;韦恩图(D)用于统计不同组中共有或特有基因。

2


功能分析



功能分析目的是了解上述表达量显著变化的基因功能。利用GO、KEGG、Reactome、DO等数据库对差异基因进行注释,通过超几何检验进行富集分析,或利用GSEA的方法再结合MSigDB数据库对样本中所有基因进行富集,根据基因整体丰度变化挑选与研究目的相关显著变化的关键通路。另外,使用STRING数据库厘清差异蛋白间的互作关系,找到位于网络中心的核心蛋白作为主要候选。

图片图片
图2 对GWAS富集到的模块进行GO富集分析和蛋白PPI网络分析[2],根据hallmark基因集进行GSEA分析[5]


思路二  机器学习联合分析


机器学习是人工智能的分支,通过算法和数据模型让计算机系统从数据中学习,不断训练,改善性能。根据基因表达特征,前期预筛选结果,使用一种或多种机器学习方法,能帮助我们更准确挑选biomarker,预测疾病风险、诊断疾病、选择恰当的治疗方法。

1


聚类分析



在此前我们介绍了几种样本分型研究常用的聚类方法,在biomarker分析中也会用到。挑选到目标基因集合后,基于这些基因丰度对样本进行无监督聚类,观察样本是否可以按预期分为如健康或患病组、疾病不同时期等,若能分开,证明挑选出的biomarker具备辅助疾病诊断或预后的功能。

2


多种机器学习方法组合



同样使用有监督学习的方法,使用数据包括:

a.将全部数据一部分作为训练集,一部分作为验证集,训练集预先设定分组,基于目标基因集丰度,建立预测模型,挑选分类效果最好的一个基因或几个基因的最佳组合,再使用验证集测试模型准确性,即测试基于基因或最佳组合对未知样本的分类效果。

b.或者将一个队列作为训练集,取一个新的队列样本数据作为验证集。

也有文章,直接使用机器学习,挑选差异的关键部分。常见方法如下。


//

随机森林

Random forest。决策树是通过对预测变量进行二元分离,构造出一棵可用于预测新样本单元所属类别的树。随机森林是生成大量决策树,不同决策树之间没有关联,对所有样本依次分类,所有决策树预测类别中的众数类别即为随机森林所预测的这一样本单元类别,由于每棵树在构建过程中都采用了随机变量和随机抽样的方法,因此随机森林的分类结果具有较高的准确度。分析得到分类变量的Mean Decrease accuracy、Mean Decrease Gini,对应值越大,变量重要性越高。


//

支持向量机

SVM。是一类可用于分类和回归的有监督机器学习模型,在多维空间中找到一个能将全部样本单元分为两类的最优平面,这一平面应使两类中距离最近点的间距尽可能大,在间距边界上的点被称为支持向量(support vector,决定间距),分割的超平面位于间距的中间。也可以通过核函数将数据投射到高维,使其在高维线性可分。与随机森林算法不同的是,SVM在预测新样本单元时不允许有缺失值出现,且仅适用于二分类,用于验证样本是否能明显被区分。


//

深度神经网络

DNN(Deep neural network)最初受到神经生物学启发,模拟生物神经元的网络,由感知器、相互连接的单元所建立,是生物神经元的简化数字模型,是深度学习的一种框架,是一系列评估数据点之间关系的算法,能为复杂非线性系统提供建模。有输入层和输出层,中间有很多隐藏层的神经网络,提高了模型的能力。通过DNN可以获得基因的预测权重,构建分类模型,用独立的验证集验证分类效率。


//

朴素贝叶斯

Naive Bayes,是基于贝叶斯定义和特征条件独立假设的分类器方法。NB模型所需估计的参数很少,对缺失数据不太敏感,假设所有特征的出现相互独立互不影响,每一特征同等重要。相对于其他精心设计的更复杂的分类算法,朴素贝叶斯分类算法是学习效率和分类效果较好的分类器之一。


图片
图3 研究使用胃癌的两个队列的bulk和scRNA-seq数据,和一个验证集去判断胃癌患者对免疫检查点阻断(ICB)的反应。
使用四种机器学习算法,通过LASSO特征选择最重要的基因,鉴定到五种亚型,经验证找到77个特征基因,通过20个临床靶向ICB基因进行PPI分析,最终确定VCAN区分应答者与非应答者的标记基因特征[6]


思路三  表达量+性状关联分析


这种思路是将基因丰度数据与性状数据直接进行关联分析,能帮助我们理解基因是如何影响生物性状的,大规模样本研究中常运用WGCNA和GWAS系列方法。

1


WGCNA



权重共表达分析,对基因间的相关性取β次幂进行幂函数处理,强化强相关,弱化弱相关,通过加权计算分析基因间的相关性,从而将表达高度相似的基因划分到相同模块中,简化成千上万基因一起分析的复杂性。对每个模块中所有基因进行PCA分析得到PC1值,作为该模块总的模块特征值,使用每个样本中模块对应的基因丰度计算,能获得每个模块在每个样本中模块特征值,能辅助我们找到在各样本中特征表达的模块,根据基因的连通性大小筛选出核心hub基因,样本量≥15个即可进行分析。

此外,将各样本连续型性状数值或分类性状(0或1)与之关联,能掌握基因、模块和性状之间的关联。根据模块特征值与性状相关性大小,挑选相关性最强的模块,再对相应得到的模块进行GO、KEGG富集分析,找到生物学意义最强的模块。获得的GS值(gene significance,基因与性状相关性)和MM(module membership,基因与模块特征值相关性)如果高度相关,表明该基因是模块内重要的元素,并且和性状显著相关;如果是MM值和K.in值(intramodular connectivity)高度相关,说明基因对于性状的意义超过了模块。Hub基因通常具有高GS值、MM值和K.in值,与性状显著相关,又具有高连通性。

图片
图4 WGCNA与性状关联分析鉴定特征基因[7]
A:根据不相关性(1-TOM)值构建树状图划分模块;B:模块特征值和性状关联;C:由于棕色模块与性状正相关程度最高,对棕色模块进行GO富集分析;D:棕色模块中的基因富集到的心血管疾病

2


TWAS/PWAS



全基因组关联分析(genome-wide association study,GWAS),是一种对具有丰富表型变异和充分的遗传重组群体,进行遗传标记(SNP)与表型变异关联的显著性定位与性状相关的遗传位点的方法。由于在疾病、药物、物种进化等各领域应用非常广泛,在此基础上衍生出了GWAS分析系列如eGWAS、TWAS、PWAS,对明显性状分离的群体实现基于基因表达的GWAS分析,建立基因表达水平与性状之间的关联,解决了GWAS仅能给出候选的染色体区域,无法确切定位致病的候选基因,适用于≥100个样本的分析。

/1/

eGWAS

expression genome-wide association study,把基因的表达量作为数量性状,先验证SNP和基因表达水平相关性,再定位某些性状的致因突变。


/2/

TWAS

transcriptome-wide association study,建立受遗传调控的基因转录表达与性状之间的关系,把转录表达作为遗传变异和表型之间的中介。利用PrediXcan、FUSION软件进行分析,先用一部分数据作为训练集,或利用GTEx数据库中基因型数据和基因表达数据,构建SNP与基因表达量之间的关系,确定基因对应的SNP位点,拟合基因表达量与基因型之间的关系模型,再用另外一个队列,预测基因表达量,通过逻辑回归建立起表达量与性状之间的关系。


此外,TWAS可以结合孟德尔随机化(mendelian randomization,MR)评估基因表达对复杂性状的因果效应。MR是根据孟德尔遗传规律,亲代的等位基因随机分配给子代,此过程相当于RCT(随机对照试验)中的随机分组过程,若遗传变异与混杂因素无关但与暴露因素有关,且遗传变异通过暴露因素对研究结局产生影响,则可以用遗传变异来推断暴露因素与研究结局之间的因果效应。

/3/

PWAS

proteome-wide association study,建立受遗传调控的蛋白表达与性状之间的关系,方法同TWAS。


图片
图5
一篇关于阿尔茨海默症研究在RNA水平上未观察到的强烈蛋白质组学疾病相关变化[8]通过WGCNA构建共表达网络,并与神经病理或认知特征关联分析,找到相关模块;通过PWAS研究模块与认知轨迹的关联,筛选与神经病理学调整后的认知回复正相关或负相关的蛋白质。


结 果 验 证


对上述方法筛选到最终的基因,可以选择:

1. 对其他队列运用完全相同的方法步骤重新分析和验证,挑选完全能重现的基因作为最终结论;
2. 使用免疫组化、Western Blot、qPCR等实验方法验证其他队列结果;
3. 使用转录组+蛋白组,相同样本分别提取RNA和蛋白,采用多组学的方法验证结果。

图片
图6
A:用其他队列及其他相似疾病样本评估鉴定到的模块特征蛋白的变化[6];B:通过免疫组化实验验证特征蛋白的表达[9];C:通过转录组和蛋白组互相验证结果,发现了只在蛋白水平发生变化的基因[8]

本专题三篇推文根据近百篇文献整理出了常用的转录组和蛋白组大样本分析思路,可以满足多种数据挖掘和发文目的,如发表多篇小文章、2-3篇中型文章、也可用于探索精准分型、稀有分型或鉴定精确性更高的Biomarker,希望能帮助到大家。基迪奥期待与各位一起合作完成更多高精深的大样本研究~

参考文献



1. Li Y, Ge X, Peng F, et al. Exaggerated false positives by popular differential expression methods when analyzing human population samples[J]. Genome biology, 2022, 23(1): 79.

2. Gandal, Michael J et al. “Broad transcriptomic dysregulation occurs across the cerebral cortex in ASD.” Nature vol. 611,7936 (2022): 532-539. doi:10.1038/s41586-022-05377-7

3. Niu L, Geyer PE, Wewer Albrechtsen NJ, et al. Plasma proteome profiling discovers novel proteins associated with non-alcoholic fatty liver disease. Mol Syst Biol. 2019;15(3):e8793. Published 2019 Mar 1. doi:10.15252/msb.20188793

4. Chen, Yun et al. “Identification and Validation of a Novel Genomic Instability-Associated Long Non-Coding RNA Prognostic Signature in Head and Neck Squamous Cell Carcinoma.” Frontiers in cell and developmental biology vol. 9 787766. 20 Jan. 2022, doi:10.3389/fcell.2021.787766

5. Tang, Fucai et al. “A novel molecular subtypes and risk model based on inflammatory response-related lncrnas for bladder cancer.” Hereditas vol. 159,1 32. 13 Aug. 2022, doi:10.1186/s41065-022-00245-w

6. Swarup V, Chang TS, Duong DM, et al. Identification of Conserved Proteomic Networks in Neurodegenerative Dementia. Cell Rep. 2020;31(12):107807.

7. Wang, Xue-Bin et al. “Identification of a blood-based 12-gene signature that predicts the severity of coronary artery stenosis: An integrative approach based on gene network construction, Support Vector Machine algorithm, and multi-cohort validation.” Atherosclerosis vol. 291 (2019): 34-43. doi:10.1016/j.atherosclerosis.2019.10.001

8. Johnson, Erik C B et al. “Large-scale deep multi-layer analysis of Alzheimer's disease brain reveals strong proteomic disease-related changes not observed at the RNA level.” Nature neuroscience vol. 25,2 (2022): 213-225. doi:10.1038/s41593-021-00999-y

9. Hernández-Verdin I, Kirasic E, Wienand K, et al. Molecular and clinical diversity in primary central nervous system lymphoma. Ann Oncol. 2023;34(2):186-199. doi:10.1016/j.annonc.2022.11.002


*未经许可,不得以任何方式复制或抄袭本篇文章之部分或全部内容。版权所有,侵权必究。


图片

基迪奥生物|专业定制测序服务
联系方式:020-39341079;service@genedenovo.com
图片
扫码关注



收录于合集 #生信
 263
上一篇分享12个植物研究相关的数据库下一篇分享10个水稻研究相关的数据库

微信扫一扫
关注该公众号