我们平时做的基因差异表达分析使用的生物学数据是如何产生的?这些知识又将如何帮助我们更好地理解基因差异表达分析?
本文将根据一篇综述《Mechanisms and Measurement of Changes in Gene Expression》回答这些问题,以期更好地帮助大家解读差异表达结果、挖掘真实生物学故事。
本文的5个目标:
人类基因组包含大约20,000个蛋白质编码基因和至少相同数量的非编码RNA基因
从碱基组成和形态上看:
近些年来,过去被视作冗余垃圾的Noncoding RNAs被发现在基因表达调控中发挥了重要作用
各Noncoding RNAs的特征、功能和目前的检测方法,见下图:
弄清楚数据的RNA类型对下游分析也很重要:
长非编码RNA(lncRNA)可以分为哪些类型呢?(https://www.bilibili.com/video/BV1L8411G7vN/)
目前已知的长非编码RNA(lncRNA)功能有哪些(https://www.bilibili.com/video/BV1LT411C77X/)
Circular RNA的产生方式有哪些类型呢?(https://www.bilibili.com/video/BV1XR4y1h7Pj/)
参与GE调控的过程包括转录、一些表观遗传过程和转录后修饰
GE的检测就是对基因转录产物的定量,转录组是细胞在特定发育阶段或生理条件下存在的一整套RNA转录本
DNA上的调控区域和转录因子是参与转录过程的基本单位
在真核生物中,与转录和GE调控相关的DNA的特定区域是启动子、增强子、沉默子和绝缘子
如图所示,DNA的调控区域,如启动子和增强子被称为顺式调节元件
这些顺式调节元件形成了顺式调节模块(CRM),也被称为转录因子结合位点(TFBS)
转录因子与TFBS结合来调控GE
基因的启动子区位于其转录起始位点的上游。通常,启动子区域在转录起始位点上游有一个25-35个碱基对的保守序列,该序列包含TATA重复序列的基序(即“TATA盒”,转录开始的启动子区域中的保守序列)。转录因子与基因的启动子区结合,促进RNA聚合酶的结合,从而启动转录。启动子序列决定了转录的方向,被转录的DNA链被称为有义链。
DNA的增强子区域是精确调节组织特异性GE所必需的。增强子激活转录,与启动子的位置、距离或方向无关。增强子含有多种TFBS,可以转录成非编码RNA。这些非编码RNA与一种名为黏连蛋白( cohesin )的蛋白质复合物一起,稳定长距离增强子-启动子相互作用并促进转录。
沉默子是DNA中具有与增强子相反作用的区域。转录抑制是通过两种沉默子实现的,即沉默子元件和负调控元件(negative regulatory elements, NREs)。沉默子的功能与启动子相关,并决定转录抑制的机制,可以是启动子区域的内在部分。
沉默子和增强子以及其他转录元件之间的相互作用对于GE的调节是重要的。
绝缘子是保护表达基因免受周围环境影响的DNA序列。存在两种类型的DNA绝缘子序列,分别是屏障元件和增强子阻断元件
屏障元件结合了一种能阻止DNA甲基化的蛋白质复合物
相比之下,增强子阻断元件干扰DNA增强子和启动子区域之间的相互作用。当绝缘子出现在增强子和启动子之间时,增强子被阻断。这种绝缘子元件可以阻止增强子激活邻近基因的GE
转录因子被蛋白激酶激活,以与靶反应元件结合,是启动和调节转录的蛋白质,只有不到2000个转录因子控制着GE
转录因子通过选择性转录一个基因子集来控制细胞中GE的水平
转录因子具有共同的结构基序(motif),如锌指、亮氨酸拉链和螺旋-环-螺旋结构等(可以通过motif预测TF)
转录因子详细介绍(motif)及相关数据库 - 程序员大本营(https://www.pianshen.com/article/39452380721/)
JASPAR - A database of transcription factor binding profiles(https://jaspar.genereg.net/)
哺乳动物GE通过多个过程之间的复杂相互作用进行调节,主要发生在转录起始时
乳动物基因的调控结构由RNA的编码序列、结合一般转录因子的近端上游启动子区、结合诱导转录因子的远端增强子序列以及绝缘子和沉默子区组成
与一般的真核转录机制不同,哺乳动物的转录机制需要独特的转录增强子来控制2000多个蛋白质编码基因的表达,以维持细胞类型特异性功能
基因调控元件及其靶基因出现在由两个DNA位点之间的相互作用形成的染色体环结构中,这两个位点由CTCTC结合因子(CTCF)蛋白结合并被内聚复合物占据,这些相互作用对于人类正常的基因激活和抑制至关重要
这些染色体支架(scaffolds)在整个发育过程中都被保存下来,在疾病状态下可能会受到遗传和表观遗传因素的干扰
GE的表观遗传调控可以通过DNA甲基化、组蛋白修饰或非编码RNA表达发生
DNA甲基化主要发生在与鸟嘌呤相邻的胞嘧啶碱基上(即CpG位点),胞嘧啶通过DNA甲基转移酶转化为5-甲基胞嘧啶
基因启动子区域CpG岛的DNA甲基化可以通过阻断转录因子与甲基化启动子位点的结合来抑制GE,例如,DNA的高甲基化可导致BRCA1等肿瘤抑制基因的沉默,从而导致肿瘤的发生
在某些情况下,CpG岛激活转录,例如,CpG结合转录因子可以激活转录,并使成熟的人类细胞产生诱导的多能干细胞
DNA与组蛋白结合形成核小体,核小体在细胞核中以致密的染色质结构排列
组蛋白上的某些氨基酸可以被乙酰化、磷酸化或甲基化来修饰(如电负性)
组蛋白修饰可通过两种机制影响GE
非编码RNA在转录和转录后过程的调节中起着重要作用
例如,miRNA通过抑制mRNA的翻译或促进其降解来调节GE,miRNA可以与mRNA结合并抑制蛋白质合成,这些miRNA的表达随着时间的推移而变化,这取决于细胞内和外部环境的变化
转录后加工包括前mRNA的5’端加帽、前mRNA添加polyA尾、通过剪接从RNA中去除内含子序列、可变剪接、基因融合转录本以及调节mRNA稳定性
在这些过程中,通过剪接从RNA中去除内含子序列、可变剪接、基因融合转录本事件可以影响GE的调节
从pre-mRNA中去除内含子序列的剪接是由被称为小核核糖核蛋白颗粒(snRNPs)的rna-蛋白质复合物催化的
经典的可变剪接( alternative splicing)模式有哪些类型呢?(https://www.bilibili.com/video/BV16x4y1M7h4/ "经典的可变剪接( alternative splicing)模式有哪些类型呢?")
当同一基因产生多个不同的转录本时,就会发生可变剪接。一个pre-mRNA转录本的选择性剪接可导致GE的变化。一个基因的编码区被称为外显子,平均而言,一个人类基因包含10-15个外显子。通过选择性剪接,这些外显子序列可以形成不同的组合,编码不同版本的蛋白质。
在可变剪接中,当两个非连续的基因组区域连接形成一个单个转录本时,就会发生基因融合事件
研究人员可以在对GE数据的统计分析中控制其中一些因素,他们需要在设计GE研究时考虑这些因素,以便收集适当的数据进行后续分析
要找到GE数据存在差异的真正来源。如
GE具有组织、细胞特异性
组织特异性基因表达和调控(TIGER)在线数据库提供了关于组织特异性GE的深度和广度的信息(Liu et al.,2008)
包含三种类型的GE独特调控水平的数据:(1)组织特异性GE谱,(2)与多个转录因子的组合基因调控,(3) CRM检测
研究人员在进行GE分析时,应该考虑组织中相似细胞群中GE差异的来源
单细胞转录组测序可以检测细胞内和同一组织样本的细胞之间的GE变化,允许在组织中进行基于表达的细胞类型聚类,检测匹配的细胞类型中的转录改变,并发现新的细胞类型
GE随着年龄的变化而变化,在一项荟萃分析中,作者发现,随着人类年龄的增长,56个基因持续过表达,17个基因低表达
GE受到环境因素的影响。例如,在一项关于因暴露于交通相关污染物而导致的GE变化的研究中,有25个核心转录本存在差异表达。这25个基因与与癌症、心脏病和慢性肺部疾病相关的通路有关。
GE受到遗传变异的影响,大量的研究已经探索了基因变异如何影响GE和某些疾病的风险
虽然蛋白质编码基因的转录水平可能会发生变化,但特定mRNA的转录水平可能与血清蛋白产物水平无关,对GE水平的了解并不能提供一个对蛋白质水平的可靠估计。
细胞内实际的转录本和蛋白水平会根据细胞外和细胞内环境的特征而波动,由于mRNA的快速降解、蛋白质产物的降解、水库效应或其他因素,mRNA的转录可能不能转化为蛋白质产物。
这些因素在我们设计实验阶段就应该进行充分考虑,以消除不必要的影响,在获取到数据进行降维如PCA后,如果发现样本并没有根据实验分组在PC1和PC2上区分开,则需要对混淆因素进行逐步筛查,并在模型中对这些因素进行说明或去除
Northern Blotting是一种用于确定样本中特定RNA的大小和数量的标准方法
Northern Blotting通常被用来测量tRNA或一组特定的mRNA
qPCR是一种实时定量GE的方法
利用逆转录酶将mRNA模板转化为互补DNA(cDNA),每一轮扩增后测定DNA的量
荧光信号的水平与扩增的DNA的数量成正比,某一特定DNA的阈值周期(Ct)值是当扩增DNA分子的荧光信号首次检测到超过基线阈值时的周期数
Ct值取决于qPCR开始时mRNA的数量,并提供了GE水平的估计值
微阵列技术利用cDNA链的核酸杂交原理,在一个单一的实验中量化大量的转录本
存在两种类型的微阵列:
Microarray方法的优缺点:
RNA测序的类型取决于研究的目的,例如,总RNA序列试图测量所有表达的RNA,编码RNA可以通过poly(A)捕获技术富集,小RNA可以通过尺寸选择和凝胶电泳富集。
此外,输入的RNA可以通过去除不需要的来富集感兴趣的特定种类RNA。例如,rRNA和Globin RNA在总RNA中占很大比例,并且在测序文库制备之前,通常被去除。或者,如果RNA序列已知,RNA捕获技术可以使用互补探针分离特定类型的RNA。
RNA通常是碎片化的,并分离出100-500个碱基的片段。输入的RNA被连接到被称为adapter的特定序列接头上,这可能包括后续扩增步骤的引物。片段和adapter连接的RNA分子通常长度为150-550个碱基对,被扩增并多次测序。
微信扫一扫
关注该公众号