April
概普生物 2023
NEW TOPIC
星标“生信人”精彩不错过
“ 数据库对生物信息学的发展是十分重要的,可以说优质的数据库资源是生信学科发展的基石。数据库可以根据不同的用途和领域分为很多种,但是实际上可以从一个角度对它进行划分,那就是单版数据库和持续更新的数据库,其中单版数据库就是指那些只发表一次的数据库,这些数据库在后面都没有再更新,它们的作者可能只是出于为了发表一篇文章;而持续更新的数据库则是在公布第一版后,陆续不断更新完善其功能,这类数据库对某一领域或者解决某一问题最关键的资源。” 今天,Immugent就来介绍一款非常经典、且持续更新的疾病基因相关数据库—DisGeNET。这个数据库从2010年发表第一版以来,一直都在受专业团队维护更新,每隔一段时间就会有新的版本和功能被更新,而且相对应的文章也是越发越好。截止到DisGeNET数据库最近在2020年所作的更新,它已经陪伴我们10多个年头了,而且Immugent坚信它后续还会做出更有用的更新。
01 详情分享 Details
DisGeNET数据库可以说是疾病相关基因研究的扛把子,它的的优势主要包括: 综合性:DisGeNET汇集了来自不同来源的基因疾病关联数据,包括基因组学、遗传性和医学文献等多个领域,这使得其收集到的数据更加全面和可靠。 可靠性:DisGeNET采用了多种筛选和验证方法,以确保收集到的数据质量和可靠性。例如,基于特定算法的数据质量评估、多个数据库之间的交叉验证等。 可访问性:DisGeNET是一个免费、开放的数据库,任何人都可以通过网页界面或API访问其中的数据和工具。 多功能性:DisGeNET提供了许多功能和工具,如基因和疾病搜索、网络分析和可视化等,使得研究人员可以更好地探索和理解基因与疾病之间的关系,从而为疾病的研究和治疗提供帮助。 1 作为Cytoscape插件的DisGeNET第一版 DisGeNET数据库第一版是作为Cytoscape插件来使用,相应的文章发表在Bioinformatics杂志,篇名为:DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene–disease networks。 使用这个插件可以直接查询和分析人类基因疾病网络,不仅允许用户友好地访问DisGeNET数据库通过整合几个公共来源的数据开发的新的基因疾病数据库。能二部图表示基因-疾病的关联,并提供数据的基因中心和疾病中心信息;它还可以通过各种内置功能帮助用户解释和探索人类疾病的遗传基础。此外,DisGeNET允许根据标准疾病分类对节点(基因/疾病)进行多色处理,以方便可视化。 图1 总的来说,DisGeNET插件是一个易于分析和解释人类基因疾病网络的连贯工具,它允许用户友好地访问一个全面的数据库,包括孟德尔病、复杂疾病和环境疾病的基因疾病关联。我们具体在使用时可以直接在Cytoscape上直接安装DisGeNET插件,它有助于解释和探索人类疾病的遗传起源。DisGeNET插件还会生成子网络的多种选择,以及先进的搜索工具,不仅有助于对单一疾病的分析,还有助于对一系列疾病或通过相关基因指定的某些疾病类别的研究。在此,基因和疾病节点的多色提供了一个方便的可视化疾病分类网络。 值得注意的是,DisGeNET团队在发表第一版数据库时,就在文章末尾就表示会计划定期更新基础基因-疾病关联数据库,并整合其它更多的疾病基因相关的数据源。 2 DisGeNET:一个动态探索人类疾病及其基因的综合平台 从2010年开始,DisGeNET团队花了5年去收集和整理各类疾病基因相关的数据资源,并且去在万众期待了很久之后,一个真正意义上的综合性DisGeNET数据库诞生了。相应的文章在2015年发表在Database杂志上,篇名为:DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes。如果说2010年发表的第一版只是提供一个理想的蓝图,那么这次更新是实现这个理想所迈出的最关键的一步。 DisGeNET数据库也是从这一年开始,才真正意义上成为一个综合性的疾病相关基因探索平台,旨在全方位解决与人类疾病的遗传基础有关的各种问题。在这一版的更新中,DisGeNET纳入了16000个基因和13000种疾病之间的38万多个关联,这使它成为当时同类数据库中最大的数据库之一。DisGeNET将专家管理的数据库与文本挖掘的数据集成在一起,涵盖孟德尔疾病和复杂疾病的信息,并包括来自动物疾病模型的数据。它以支持证据为基础,对基因疾病关联进行优先排序。 图2 当然也是从2015年开始,DisGeNET被打造成一个可开放访问的综合性资源型数据库,用户既可以通过web界面,也可以使用Cytoscape插件和语义web资源获得疾病相关信息,其中web界面支持用户友好的数据浏览和导航。DisGeNET数据也可以通过DisGeNET Cytoscape插件进行分析,并通过这个流行的网络分析软件套件的其他插件的注释进行丰富。最后,DisGeNET中包含的信息可以使用语义Web技术进行扩展和补充,并链接到关联数据云中已经存在的各种资源。因此,DisGeNET提供了最全面的人类基因-疾病关联集合之一,以及一套有价值的工具,用于调查遗传起源疾病的分子机制,旨在满足不同用户的需求,包括生物信息学家、生物学家和卫生保健从业人员。 图3 其中,DisGeNET数据库的Web界面是第二版本的主要新功能之一。它的设计是为了使搜索、可视化、过滤和分享数据更加容易。此外, 它允许下载包含用户搜索结果的各种格式的数据文件。此外,它还能自动生成几种编程语言的脚本,可以下载并用于复制用户进行的分析。高级用户可以定制这些脚本,以执行类似的查询和/或将其纳入他们自己的生物信息学工作流程。最后, 提供的功能是通过电子邮件或将结果页面的HTML代码嵌入到一个网页中来分享用DisGeNET进行的搜索结果。 图4 DisGeNET数据库还允许按 MeSH 类别过滤 PPARG 相关的疾病,从而展示了 PPARG 基因参与人类疾病的全貌。上图A显示了按 MeSH 类别对来自策划来源的 PPARG 相关疾病的 DisGeNET 分数分布图,其中代表性最强的两个疾病类别是肿瘤(12 种疾病)和营养与代谢性疾病(11 种疾病)。后一类包括得分最高的三种疾病,这与PPARG在营养水平感知以及脂质和葡萄糖代谢的调节中的作用相一致。肥胖症是与PPARG相关的排名最高的疾病(0.812)。几乎所有的资料都支持这种关联,而且有100多篇文章,这些文章主要是探讨PPARG遗传变异在肥胖症中的作用。上图C说明了这一点:连接 PPARG 和肥胖症的许多边都对应于 "遗传变异 "关联类型。 3 DisGeNET-RDF:利用语义网络来探索疾病的遗传基础 DisGeNET数据库在2015年的更新后,在当时的科研界引起了极大的轰动,但同时由于庞大的数据量和复杂的基因和疾病互作关系,使得用户并不能轻易捕获到检索结果的核心信息。因此,在2016年DisGeNET数据库提出了基于语义相似性的概念打造了DisGeNET-RDF,相应的文章以篇名为:DisGeNET-RDF: harnessing the innovative power of the Semantic Web to explore the genetic basis of diseases的形式,在2016年发表在Bioinformatics杂志上。 总的来说,DisGeNET-RDF基于语义网络相似性,提供了关于人类疾病的遗传基础的知识,使得基因-疾病关联(GDAs)及其出处原数据被公布为人类可读和机器可处理的网络资源。DisGeNET-RDF中包含的关于GDAs的信息与其他生物医学数据库相互连接,以支持开发生物信息学方法,通过循证利用丰富和完全相互连接的开放数据进行转化研究。 图5 为了确定疾病相关病因、药理治疗和毒理学事件的生物机制,我们需要利用生物医学数据,以多方面的方式进行集成。因此,DisGeNET-RDF的应用是多种多样的,其SPARQL端点允许查询联合使用单个查询带有多个LOD资源的DisGeNET。这些数据包括基因表达,药物和其他化学物质,生物途径和网络,动力学模型,只是提到一些覆盖的信息。 可以使用DisGeNET-RDF及其与其他资源的链接来解决所研究的复杂科研问题: 探索与拉福拉病相关的途径是什么? 哪些与阿尔斯科格综合征相关的蛋白质是潜在的药物靶点? 胰腺癌中与基因差异表达相关的其他疾病有哪些? DisGeNET-RDF不仅提供了基于以往研究的基因列表,还介绍了如何从个人电脑的端点服务制定SPARQL查询的支持信息。例如,要解决前面的问题(1)、(2)和(3),用户可以分别将DisGeNET-RDF与WikiPathways、ChEMBL和Gene Expression Atlas交叉。具体使用教程,我们可参阅网站上针对这些特定用例的SPARQL查询示例。查询到的这些信息可用于探索疾病的潜在分子机制,探索药物的重新利用机会,或确定与不良反应相关的药物靶点。 4 DisGeNET:一个整合了人类疾病相关基因的综合平台 关于人类疾病的遗传基础的信息是精准医疗和药物发现的核心。然而, 为了充分发挥其潜力以支持这些目标, 必须克服一系列难题, 如数据的分散性、异质性、可用性和不同的概念化。为了尝试解决上述难题,DisGeNET数据库分别在2017年和2019年做了两次系统性的更新,相应的文章均发表在Nucleic Acids Research杂志上,至此确定了其在疾病数据库领域的核心地位。 DisGeNET数据库不仅整合了来自专家策划的资料库, GWAS目录, 动物模型和科学文献的数据,并且还使用受控词汇和公认的研究概念对所有疾病信息进行了同质化的注释。此外, 还提供了几个原始指标, 以协助确定基因型-表型关系的优先次序. 这些信息可以通过一个网络界面、一个Cytoscape应用程序、一个RDF SPARQL终端、几种编程语言的脚本和一个R包来获取。最终,DisGeNET作为一个多功能的平台,可用于不同的研究目的,包括调查特定人类疾病及其并发症的分子基础,分析疾病基因的特性,产生关于药物治疗作用和药物不良反应的假设,验证计算预测的疾病基因和评估文本挖掘方法的性能。 图6 DisGeNET数据库结构(图1A)的核心概念是基因-疾病关联(GDA)和变异-疾病关联(VDA),它们是从不同的数据源整理而来的(图2)。这些不同数据源的集成是通过使用社区驱动的本体和受控词汇表对基因、变异、疾病(疾病、症状和特征)和关联进行适当的标准化来实现的。以及专门开发的本体(例如DisGeNET关联类型本体)。值得注意的是,信息的来源以几种方式提供:(a)作为字段“原始数据库”,表明数据来自何处(例如ClinVar或UniProt), (b)支持该协会的文章数量和这些出版物的NCBI PMIDs,以及(c)从文章中摘录的文本,表达该协会的证据。gda和vda通过内部和外部属性进一步注解,简化了数据分析、探索和优先级划分。 图7 DisGeNET中关于疾病相关基因的主要包括两个概念:疾病和基因的相关性(GDA)以及变异和疾病的相关性(VDA)。基于以上这两个概念。作者基于多个公共数据基因注释平台例如:[Simple ClinVar]-临床相关突变研究, Uniprot 以及基于文献的文本挖掘,最终一共获得了 628685 个 GDA,涉及 17549 个基因和 24166 种疾病,以及 210498 个 VDA,包括 117 337 个变异和 10358 种疾病。在DisGeNET数据库最新的版本(v6.0)中,包含了628685个基因-疾病关联(GDAs),涉及17549个基因和24 166种疾病,以及210498个变异-疾病关联(VDAs),包括117 337个变异和10358种疾病。请注意,“疾病”一词指的是与人类基因组学相关的广泛表型:实际疾病、疾病症状和作为疾病表现被观察到的异常表型,以及目前在大规模全基因组关联研究(GWAs)中探索的正常性状和表型(有关疾病标准化和注释的更多细节,请参阅新数据属性和优先级度量)。 图8 目前,纳入DisGeNET数据库的GDAs和VDAs来自于十多个资料库。例如, 注释临床相关变异体(ClinVar)或基因(ClinGen, Genomics England Pan-elApp等)的数据库, 或专门针对某些疾病类别的数据库(如针对罕见疾病的Orphanet), 或汇编疾病的动物模型的信息(如MGD和RGD)。 除了 VDAs 和 GDAs 的原始信息来源外, DisGeNET 还为数据库来源提供了一个分类: 对于基因-疾病关联 (GDAs), 信息被归类为 Curated, Animal Models, Literature 和一个新的类别—Inferred。 以上就是 DisGeNET数据库的全部功能介绍了,至于我们如何使用它用于我们的实际科研问题,取决于用户自己的喜好。特别是基于DisGeNET数据库开发的R包--disgenet2r,已经和其它分析结果做了无缝衔接,使用起来十分方便。这对于高通量数据分成的结果解读而言,除了基本的 GO 和 KEGG 的功能富集分析之外,也是可以使用disgenet2r包来分析这些基因和疾病的关系。特别是当我们聚焦一种疾病的话,就可以利用disgenet2r包很容易找到这个疾病有关的基因了。
02 说在最后 Summarize
总的来说,DisGeNET数据库是一个专门收集人类遗传性疾病与基因、变异、蛋白质、化合物等相关信息的数据库。它收集了大量文献、基因组、蛋白质组和化学信息的数据,能够提供大量的遗传性疾病的相关信息,包括遗传突变的位置、基因变异的性质、相关蛋白质的表达及功能等。同时,DisGeNET数据库构建了一个基因疾病关联网络,它收集了来自不同资源(如科学文献、遗传性和基因组学数据库、疾病相关基因、药物和疾病关联的基因)的数据,以及基于自然语言处理技术提取的基因-疾病关联信息,以提供广泛的基因疾病关联数据。此外,该数据库还提供了一些工具和功能,如基因和疾病搜索、网络分析和交互式可视化等,以帮助研究人员更好地探索和理解基因与疾病之间的关系。 除了基因疾病关联信息外,DisGeNET还提供了其他有用的功能。例如,用户可以通过DisGeNET搜索具有特定疾病相关性的基因或基因组区域,并获取有关这些基因的详细信息。此外,DisGeNET还提供了可视化工具,帮助用户理解基因疾病关联的复杂性和多样性。DisGeNET数据库的应用已经涉及到许多领域,包括基因疾病关联研究、药物发现和个体化医学等。其中一些应用包括: 基因疾病关联研究:DisGeNET可以为基因疾病关联研究提供有用的信息和支持。例如,研究人员可以利用DisGeNET中的数据鉴定和验证新的基因与疾病之间的关联。 药物发现:DisGeNET可以用于药物发现和开发。例如,研究人员可以利用DisGeNET中的信息确定哪些基因与特定疾病相关,并寻找具有靶向这些基因的药物。 个体化医学:DisGeNET可以为个体化医学提供支持。例如,医生可以利用DisGeNET中的信息,帮助诊断和治疗患有特定疾病的患者。 总之,DisGeNET数据库是一个非常有用的资源,能够提供广泛的基因疾病关联信息,并支持了多个医学应用领域的发展。在未来,随着更多数据和信息的不断积累,DisGeNET的应用和发展将继续完善和拓展。Immugent衷心希望DisGeNET数据库能做的越来越好,同时也希望未来能有更多像DisGeNET这样的数据库被开发出来,那样我们就能更好的整合这些资源来做好相关的科研工作。 [参考文献] [1] Bauer-Mehren A, Rautschka M, Sanz F, Furlong LI. DisGeNET: a Cytoscape plugin to visualize, integrate, search and analyze gene-disease networks. Bioinformatics. 2010 Nov 15;26(22):2924-6. doi: 10.1093/bioinformatics/btq538. Epub 2010 Sep 21. PMID: 20861032. [2] Piñero J, Queralt-Rosinach N, Bravo À, Deu-Pons J, Bauer-Mehren A, Baron M, Sanz F, Furlong LI. DisGeNET: a discovery platform for the dynamical exploration of human diseases and their genes. Database (Oxford). 2015 Apr 15;2015:bav028. doi: 10.1093/database/bav028. PMID: 25877637; PMCID: PMC4397996. [3] Queralt-Rosinach N, Piñero J, Bravo À, Sanz F, Furlong LI. DisGeNET-RDF: harnessing the innovative power of the Semantic Web to explore the genetic basis of diseases. Bioinformatics. 2016 Jul 15;32(14):2236-8. doi: 10.1093/bioinformatics/btw214. Epub 2016 Apr 22. PMID: 27153650; PMCID: PMC4937199. [4] Piñero J, Bravo À, Queralt-Rosinach N, Gutiérrez-Sacristán A, Deu-Pons J, Centeno E, García-García J, Sanz F, Furlong LI. DisGeNET: a comprehensive platform integrating information on human disease-associated genes and variants. Nucleic Acids Res. 2017 Jan 4;45(D1):D833-D839. doi: 10.1093/nar/gkw943. Epub 2016 Oct 19. PMID: 27924018; PMCID: PMC5210640. [5] Piñero J, Ramírez-Anguita JM, Saüch-Pitarch J, Ronzano F, Centeno E, Sanz F, Furlong LI. The DisGeNET knowledge platform for disease genomics: 2019 update. Nucleic Acids Res. 2020 Jan 8;48(D1):D845-D855. doi: 10.1093/nar/gkz1021. PMID: 31680165; PMCID: PMC7145631.
往期热点 (点击标题跳转) 01 线粒体质量控制 02 孟德尔随机化 03 成纤维细胞(CAFs) 04 单细胞空间转录组 05 肿瘤相关巨噬细胞(TAM) 06 细胞死亡 07 耐药 课题设计 | 组学测序 |生信分析 培训工具 | 热点互动 | 资源互换 图文排版|CY 文章转载请联系 | 15510012760(微信) 广告商务合作 | 18501253903(微信)
微信扫一扫
关注该公众号