cBioPortal数据库——零代码进行突变分析与可视化
癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC)等大规模癌症基因组学项目产生了海量的癌症基因组学数据。对于没有计算机背景的研究者来说,对这些数据进行整合、探索和分析是一件极具挑战性的事。
之前的推文中我们已经介绍过了一些零代码即可操作的数据库,比如进行富集分析的DAVID数据库、进行生存分析的Kaplan-Meier数据库,帮助了很多小伙伴。这期推文再给大家介绍一个零代码进行突变分析与可视化的数据库——cBioPortal。
(学习更多生信小知识都在“生信大碗”,学习交流q群787146651)
一、cBioPortal简介
cBioPortal是一个集检索、下载、分析和可视化癌症基因组学数据于一身的数据库,其整合的基因组数据类型非常广泛,包括体细胞突变、DNA拷贝数改变(CNAs)、mRNA和microRNA(miRNA)表达、DNA甲基化、蛋白质丰度和磷酸蛋白丰度。cBioPortal可以进行多种分析,但最主要的还是与突变相关的各种分析及其可视化。此外,cBioPortal数据库不仅支持单基因单癌症的查询,而且可以进行多基因单癌症、单基因多癌症、多基因多癌症,甚至是跨癌症基因组项目的分析。
二、使用方法
下面,我们就以P53信号通路的6个基因:TP53、MDM2、MDM4、CDKN2A、CDKN2B、TP53BP1(多基因)在TCGA肝癌数据集(单癌症)中的突变情况分析为例,进行演示:
01
进入cBioPortal (https://www.cbioportal.org/)后,按照图1中的①②③进行操作。
细心的小伙伴可能注意到了,在我们第二步勾选的“Liver Hepatocellular Carcinoma (TCGA, PanCancer Atlas)”的上方还有一个(TCGA, Firehose Legacy)的肝癌数据集,为什么不选那一个呢?这里就要解释一下了,Firehose Legacy数据集,以前又称为临时数据集,其内的数据比较原始,而为了使TCGA所有33中癌症类型的数据之间具有可比性,就需要对各种癌症的突变、拷贝数、基因表达等数据进行相同的处理和标准化,这就产生了TCGA PanCancer Atlas数据集,也就是说,TCGA PanCancer Atlas数据集是处理过了的Firehose Legacy数据集,更加适合比较分析。
02
在跳转的页面中,按照图2中的①②③④进行操作。
03
如图3,点击不同的模块,即可查看各种分析的结果,并且还能根据需要进行一定程度的个性化调整。
三、结果讲解
01
OncoPrint模块的瀑布图(图4)
02
Mutations模块的目标基因对应蛋白质的二维结构图(图5)
cBioPortal功能非常强大,能进行的分析众多,比如生存分析、相关性分析、基因组改变之间的互斥性分析等等,并会以瀑布图、直方图、箱线图、火山图、等等形式直观的展现分析结果。由于篇幅限制,这里仅对其中较为复杂的几张图形进行解读。感兴趣的小伙伴可以在网页中把每个按钮都点一点,把每张图形都看一看,一定会有很大收获的。
四、数据下载
我们也可以从cBioPortal数据库中下载数据,再用R等软件进行更加个性化的分析,数据下载的具体步骤如下:
01
进入cBioPortal
(https://www.cbioportal.org/)后,点击“Data Sets”。
02
输入关键词,进行检索,找到所需数据,下载即可。
今天的分享到这里就结束啦~
如果你觉得本期推文对你有帮助的话,
就留个免费的赞再走吧~
我们下期再见啦~
本文首发于“生信大碗”公众号
转载请注明出处
讲的很详细,再多出几期吧![[爱]](data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAEIAAABCCAMAAADUivDaAAAABGdBTUEAALGPC/xhBQAAACBjSFJNAAB6JgAAgIQAAPoAAACA6AAAdTAAAOpgAAA6mAAAF3CculE8AAAAbFBMVEUAAADrnAbvpgDupgDupwDupgDupwDrnQfupgDvpgDupgDYdzy4NTW3NTXvpwH1sxz/wUD+y1X+2Gv/54T/4nv+3XP+0mD/7I3+xkzkt1KbZyC0gzDQnEN2PQWIURLIVzq5NjbZHTz+AUH///+QJWpDAAAADnRSTlMAGFyQt93vO6CAcP3lhoR3za0AAAABYktHRCMqYmw6AAADs0lEQVRYw92X65qjIAyGpwd7mO4Eo0JRwdq5/4vcJwkontqZn7sfDmBKXmNUBj4+/n/t9odjlp0Asux42J9/7X8+ZDBVdvkNZXed+wfK5+6ngJN4qByLsizLSptcBcrhJ5CzRKDMfaoil0j2b0M48EBb3ldkOJbj60B22TaAhATJXuX1TFlQ1X1bFd/O5yZhTz/j/X4v76txkLk0NOj6gqA0PQMaKq0c0pbCqNQmg+6CCOI9YJbSxFh7MJRJieGtiHFayekRAHRZlXRIVW0QqrJQANni2V4pk2UlJVZ0hKZuWlfIaVlxTg/z2wCAvIoaPWNbNt5737g4wgLA7FYulIjgvCrnWa0O5wrguAjCVq+la4qkCwwzD4OCqHRVaaq4lhJtXHRVd943wTwLg4IwNEgP1XBII1VlOu9rtlXFNIwrZWIAaF3Uzhm9prpritBVAJcRkQHYYVTlJPuriGrsIsBpeDfOfB98ea1dF3O/qmJs0zv5BFAFS7LuG+dqLYbwxzU7hm6haRobXq8jQM5Gbfj6hkezJUJ04eSHhGoBsiQVKFE475u6WBO/Ws3ERK/GLnmkwdq2VLu2dTOSZGhqHJNB2SwKw4Uxks/ORZspTB1yPBioUcO0caYpn1VQFQh0TTHQ8IgYLCQ1zKJ7QYhZEE3bMGIwD4hoKoyhKK4TBF+NRrc8sG5dMtrEuAQp5nyJSGJcSJ7IdMQWYkut9w1OTcsbQT5CZWIPhx9wYpykkz+RiVCSUSdnwRPT7vhQdwC3x+NxswZjawzWdOuYOEwL2ZLv7NaLYuvQIHa+qxFd1yKaplkwEI0dX/BzPxf5el8jtt533Lc4k0HMx8/sT9/3z+8nO4fWkpuTucdiS5ylxmmLgvgmJa1DK99V432LnW/WEON/1i+6Nis2fX9D5NnaoXwxNaLlEg5SDnD6mCO+E4S1fKAlRhtcJyWZflcRBLCMsc7VNgCjiZU80n3MQRTlIvGxeXQa3dFSEMO0t/szDePZ9w/7VvlkmfLVp4ynBPFOkAQxYxDhYfNQ5MjHJhY1vpkjox8JeULI+QhncmrzPF8uUSKjFwLLxtrmoyX0YWWhxAx+t2+j/+Cb9GIMp+Uy+it+rQvXGM3Yh61FI31tPaQx2wFi01i2l7+7r/7Bu5DXUq8W0HEZ/56wvYyPmwn1GpC93qTtLrANkd3V8e3eah82VnOKEsDp8x2ANOwPVeAoFXd3p+tP94j79U3mjwHybC5zyunw+w2zbLghbLh/c/1/VH8BDBnmuvlQa8IAAAAASUVORK5CYII=)
cbio这个数据库测序数据来源是啥?组织还是ctDNA还是啥啊