多组学水平的孟德尔随机化分析+three-step SMR 应用实操

生信大碗 生信大碗 2023-10-05 13:35
图片
图片
点击蓝字
 
关注我们

多组学分析在基因表达、表观遗传、蛋白、单细胞及微生物组学等水平上,利用组学数据比较不同组学水平的疾病和健康对照,从而鉴定潜在的致病机制。

药物靶点孟德尔随机化分析:探究是其中的哪些基因或蛋白或哪些位点促进了疾病的发生发展,在一定程度上与该疾病是否有因果关联,哪些可能是保护性因素或危险因素,从而鉴定出潜在的靶点基因或蛋白。

   我们看下面这篇文章,氧化应激相关基因表达、DNA甲基化和肠道微生物群相互作用触发克罗恩病的一项多组学水平的孟德尔随机化研究。该文作者使用基于多组学总结数据的孟德尔随机化(SMR)方法来确定CD中OS基因的推定因果效应和潜在机制。利用SMR方法,作者将最大的CD GWAS汇总统计数据与血液中的eQTL和DNA甲基化QTL(mQTL)相结合,从而探究与CD有因果关系的OS基因受DNA甲基化调节机制。

图片



其中主要研究内容之一为采用three-step SMR methods的方法探究氧化应激相关基因在基因表达水平(expression quantitative trait loci, eQTLs)及甲基化水平(methylation QTLs)上与克罗恩病的关联,并且对mQTL-eQTL进行了整合分析,探究甲基化影响氧化应激相关基因表达的可能机制。

three-step SMR步骤如下

(1)SNPs作为工具变量(eQTLs),氧化应激相关基因表达作为暴露,CD作为结局;

(2)SNPs作为工具变量(mQTLs),氧化应激相关基因甲基化水平作为暴露,CD作为结局;

(3)SNPs作为工具变量,甲基化水平mQTLs作为暴露因素,基因表达水平eQTLs作为结局因素。

这里以氧化应激相关基因,抑郁症为例,示例three-step SMR分析流程

(1) 数据准备

氧化应激相关基因来源于GeneCards

eQTL来源于eQTLGen Consortium数据库(https://www.eqtlgen.org/)

mQTL来源于两组外周血BSGS和LBC队列研究

(https://yanglab.westlake.edu.cn/software/smr/#mQTLsummarydata)

抑郁症的结局GWAS数据来源于PGC官网

(https://pgc.unc.edu/for-researchers/download-results/)


(2) 下载安装SMR

https://yanglab.westlake.edu.cn/software/smr/#Download

图片


(3) 创建SMR分析用的文件夹

图片

桌面新建一个文件夹,其中新建SMR及smr_win两个子文件夹(当然也可以换成其它的文件夹名称),将准备的QTL的数据及疾病的GWAS数据放在SMR文件夹中,同时还需要准备1000G的欧洲人口的数据放在SMR文件夹中。将氧化应激相关基因的list文件及下载解压后的SMR的exe文件放在smr_win文件夹中(这样设置是为了和后面的代码相适应)。


(4) OS相关基因eQTL为工具变量,抑郁为结局(第一步SMR)

使用Windows PowerShell 打开smr.exe程序(在smr_win文件夹中点右键,选择在终端中打开),输入下列代码:

OS相关基因生成besd文件:

.\smr-1.3.1-win.exe --beqtl-summary ../SMR/cis-eQTLs-full_eQTLGen --genes os.list --query 5.0e-8 --out os_eqtl --make-besd

OS相关基因与抑郁的SMR分析

.\smr-1.3.1-win.exe --bfile ../SMR/g1000_eur/g1000_eur --gwas-summary ../SMR/MDDgwas.txt --beqtl-summary ../SMR/os_eqtl --maf 0.01 --out ../SMR/os_eqtl_smr --thread-num 10


(5) OS相关基因mQTL为工具变量,抑郁为结局(第二步SMR)

OS相关基因生成besd文件

.\smr-1.3.1-win.exe --beqtl-summary ../SMR/LBC_BSGS_meta_mqtl --genes os_gene_sym.list --query 5.0e-8 --out os_mqtl --make-besd

OS相关基因与抑郁的SMR分析

.\smr-1.3.1-win.exe --bfile ../SMR/g1000_eur/g1000_eur --gwas-summary ../SMR/MDDgwas.txt --beqtl-summary ../SMR/os_mqtl --maf 0.01 --out ../SMR/os_mqtl_smr --thread-num 10


(6) mQTL为暴露,eQTL为结(第三步SMR)

.\smr-1.3.1-win.exe --bfile ../SMR/g1000_eur/g1000_eur --beqtl-summary ../SMR/os_mqtl --beqtl-summary ../SMR/os_eqtl --out myomics

最后结果的选择,根据three-step SMR分析的结果,满足以下条件:

three-step SMR结果中的FDR < 0.05;

所有的eQTLs,mQTLs和疾病的GWAS数据,在全基因组阈值水平上p < 1×10−5

异质性检验中HEIDI test p值大于0.05。最后,通过这一分析我们可以发现具体是哪些甲基化位点可能影响某些基因的表达,从而导致的疾病的发生,为揭示某一疾病在表观遗传及基因表达水平上的可能致病机制提供了一个新的方法。



Tips


需要示例数据网盘资源的同学,请在公众号后台回复“氧化应激与抑郁示例数据”自行领取。


往期回顾

#

一文带你读懂孟德尔随机化

#

两样本孟德尔随机化代码实操

#

你真的搞懂测序技术了吗——第二代测序

#

最常用的线性降维方法 ——PCA(主成分分析) 你了解吗?

图片

生信干货 · 目录
上一篇从GSEA下载目标基因集并使用maftools包绘制瀑布图下一篇保姆级教程!5分钟学会绘制timeROC、multiROC(附示例数据)!
文章已于2023-10-19修改

微信扫一扫
关注该公众号