cBioPortal数据库——零代码进行突变分析与可视化

癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC)等大规模癌症基因组学项目产生了海量的癌症基因组学数据。对于没有计算机背景的研究者来说,对这些数据进行整合、探索和分析是一件极具挑战性的事。

之前的推文中我们已经介绍过了一些零代码即可操作的数据库,比如进行富集分析的DAVID数据库、进行生存分析的Kaplan-Meier数据库,帮助了很多小伙伴。这期推文再给大家介绍一个零代码进行突变分析与可视化的数据库——cBioPortal。

(学习更多生信小知识都在“生信大碗”,学习交流q群787146651)

一、cBioPortal简介

cBioPortal是一个集检索、下载、分析和可视化癌症基因组学数据于一身的数据库,其整合的基因组数据类型非常广泛,包括体细胞突变、DNA拷贝数改变(CNAs)、mRNA和microRNA(miRNA)表达、DNA甲基化、蛋白质丰度和磷酸蛋白丰度。cBioPortal可以进行多种分析,但最主要的还是与突变相关的各种分析及其可视化。此外,cBioPortal数据库不仅支持单基因单癌症的查询,而且可以进行多基因单癌症、单基因多癌症、多基因多癌症,甚至是跨癌症基因组项目的分析。


二、使用方法
下面,我们就以P53信号通路的6个基因:TP53、MDM2、MDM4、CDKN2A、CDKN2B、TP53BP1(多基因)在TCGA肝癌数据集(单癌症)中的突变情况分析为例,进行演示:

01

进入cBioPortal (cbioportal.org/)后,按照图1中的①②③进行操作。

图1

细心的小伙伴可能注意到了,在我们第二步勾选的“Liver Hepatocellular Carcinoma (TCGA, PanCancer Atlas)”的上方还有一个(TCGA, Firehose Legacy)的肝癌数据集,为什么不选那一个呢?这里就要解释一下了,Firehose Legacy数据集,以前又称为临时数据集,其内的数据比较原始,而为了使TCGA所有33中癌症类型的数据之间具有可比性,就需要对各种癌症的突变、拷贝数、基因表达等数据进行相同的处理和标准化,这就产生了TCGA PanCancer Atlas数据集,也就是说,TCGA PanCancer Atlas数据集是处理过了的Firehose Legacy数据集,更加适合比较分析。


02

在跳转的页面中,按照图2中的①②③④进行操作。

图2

03

如图3,点击不同的模块,即可查看各种分析的结果,并且还能根据需要进行一定程度的个性化调整。

图3

三、结果讲解

01

OncoPrint模块的瀑布图(图4)

图4

02

Mutations模块的目标基因对应蛋白质的二维结构图(图5)

图5

cBioPortal功能非常强大,能进行的分析众多,比如生存分析、相关性分析、基因组改变之间的互斥性分析等等,并会以瀑布图、直方图、箱线图、火山图、等等形式直观的展现分析结果。由于篇幅限制,这里仅对其中较为复杂的几张图形进行解读。感兴趣的小伙伴可以在网页中把每个按钮都点一点,把每张图形都看一看,一定会有很大收获的。

四、数据下载

我们也可以从cBioPortal数据库中下载数据,再用R等软件进行更加个性化的分析,数据下载的具体步骤如下:


01

进入cBioPortal

(cbioportal.org/)后,点击“Data Sets”。


图6



02

输入关键词,进行检索,找到所需数据,下载即可。

图7


今天的分享到这里就结束啦~

如果你觉得本期推文对你有帮助的话,

就留个免费的赞再走吧~

我们下期再见啦~


本文首发于“生信大碗”公众号

转载请注明出处

编辑于 2023-06-20 18:51・IP 属地重庆
发布一条带图评论吧

5 条评论
默认
最新
111

讲的很详细,再多出几期吧[爱]

03-29 · IP 属地甘肃
知乎用户VR4xjp
其他都没问题就这个mutations点不开,点开后是错误
06-23 · IP 属地河南
知乎用户VR4xjp
为啥我试了不同组织的一个基因,点mutations板块出不来,显示错误
06-22 · IP 属地河南
搬砖王子

cbio这个数据库测序数据来源是啥?组织还是ctDNA还是啥啊

07-17 · IP 属地湖南