差异表达分析没那么简单

原创 Quasimodo 生信菜鸟团 2023-08-23 12:30

我们平时做的基因差异表达分析使用的生物学数据是如何产生的？这些知识又将如何帮助我们更好地理解基因差异表达分析？
本文将根据一篇综述《Mechanisms and Measurement of Changes in Gene Expression》回答这些问题，以期更好地帮助大家解读差异表达结果、挖掘真实生物学故事。

本文的5个目标：

描述不同类型的RNA转录本
描述基因表达(Gene Expression, GE)的过程
描述GE中常见的变化来源
描述最常用的检测GE的方法
讨论在选择进行GE检测的组织时应考虑的因素

1.Types of RNA

人类基因组包含大约20,000个蛋白质编码基因和至少相同数量的非编码RNA基因

从碱基组成和形态上看：

近些年来，过去被视作冗余垃圾的Noncoding RNAs被发现在基因表达调控中发挥了重要作用

各Noncoding RNAs的特征、功能和目前的检测方法，见下图：

弄清楚数据的RNA类型对下游分析也很重要：
明明PCA区分非常好，但是差异基因数量很少？
没想到假基因也能注释到生物学功能数据库啊
长非编码RNA(lncRNA)可以分为哪些类型呢？(https://www.bilibili.com/video/BV1L8411G7vN/)
目前已知的长非编码RNA(lncRNA)功能有哪些(https://www.bilibili.com/video/BV1LT411C77X/)
Circular RNA的产生方式有哪些类型呢？(https://www.bilibili.com/video/BV1XR4y1h7Pj/)

2.Regulation of GE

参与GE调控的过程包括转录、一些表观遗传过程和转录后修饰

Transcription

GE的检测就是对基因转录产物的定量，转录组是细胞在特定发育阶段或生理条件下存在的一整套RNA转录本

DNA上的调控区域和转录因子是参与转录过程的基本单位

Regulatory Regions

在真核生物中，与转录和GE调控相关的DNA的特定区域是启动子、增强子、沉默子和绝缘子

如图所示，DNA的调控区域，如启动子和增强子被称为顺式调节元件

这些顺式调节元件形成了顺式调节模块（CRM），也被称为转录因子结合位点（TFBS）

转录因子与TFBS结合来调控GE

启动子（promoter）

基因的启动子区位于其转录起始位点的上游。通常，启动子区域在转录起始位点上游有一个25-35个碱基对的保守序列，该序列包含TATA重复序列的基序（即“TATA盒”，转录开始的启动子区域中的保守序列）。转录因子与基因的启动子区结合，促进RNA聚合酶的结合，从而启动转录。启动子序列决定了转录的方向，被转录的DNA链被称为有义链。

增强子（enhancer）

DNA的增强子区域是精确调节组织特异性GE所必需的。增强子激活转录，与启动子的位置、距离或方向无关。增强子含有多种TFBS，可以转录成非编码RNA。这些非编码RNA与一种名为黏连蛋白（ cohesin ）的蛋白质复合物一起，稳定长距离增强子-启动子相互作用并促进转录。

沉默子（silencer）

沉默子是DNA中具有与增强子相反作用的区域。转录抑制是通过两种沉默子实现的，即沉默子元件和负调控元件（negative regulatory elements, NREs）。沉默子的功能与启动子相关，并决定转录抑制的机制，可以是启动子区域的内在部分。

沉默子和增强子以及其他转录元件之间的相互作用对于GE的调节是重要的。

绝缘子（insulator）

绝缘子是保护表达基因免受周围环境影响的DNA序列。存在两种类型的DNA绝缘子序列，分别是屏障元件和增强子阻断元件

屏障元件结合了一种能阻止DNA甲基化的蛋白质复合物

相比之下，增强子阻断元件干扰DNA增强子和启动子区域之间的相互作用。当绝缘子出现在增强子和启动子之间时，增强子被阻断。这种绝缘子元件可以阻止增强子激活邻近基因的GE

Transcription Factors

转录因子被蛋白激酶激活，以与靶反应元件结合，是启动和调节转录的蛋白质，只有不到2000个转录因子控制着GE

转录因子通过选择性转录一个基因子集来控制细胞中GE的水平

转录因子具有共同的结构基序（motif），如锌指、亮氨酸拉链和螺旋-环-螺旋结构等（可以通过motif预测TF）

转录因子详细介绍(motif)及相关数据库 - 程序员大本营(https://www.pianshen.com/article/39452380721/)
JASPAR - A database of transcription factor binding profiles(https://jaspar.genereg.net/)

Fundamental Mechanisms of GE in Mammals

哺乳动物GE通过多个过程之间的复杂相互作用进行调节，主要发生在转录起始时

乳动物基因的调控结构由RNA的编码序列、结合一般转录因子的近端上游启动子区、结合诱导转录因子的远端增强子序列以及绝缘子和沉默子区组成

与一般的真核转录机制不同，哺乳动物的转录机制需要独特的转录增强子来控制2000多个蛋白质编码基因的表达，以维持细胞类型特异性功能

基因调控元件及其靶基因出现在由两个DNA位点之间的相互作用形成的染色体环结构中，这两个位点由CTCTC结合因子（CTCF）蛋白结合并被内聚复合物占据，这些相互作用对于人类正常的基因激活和抑制至关重要

这些染色体支架（scaffolds）在整个发育过程中都被保存下来，在疾病状态下可能会受到遗传和表观遗传因素的干扰

Epigenetic Regulation

GE的表观遗传调控可以通过DNA甲基化、组蛋白修饰或非编码RNA表达发生

DNA甲基化

DNA甲基化主要发生在与鸟嘌呤相邻的胞嘧啶碱基上（即CpG位点），胞嘧啶通过DNA甲基转移酶转化为5-甲基胞嘧啶

基因启动子区域CpG岛的DNA甲基化可以通过阻断转录因子与甲基化启动子位点的结合来抑制GE，例如，DNA的高甲基化可导致BRCA1等肿瘤抑制基因的沉默，从而导致肿瘤的发生

在某些情况下，CpG岛激活转录，例如，CpG结合转录因子可以激活转录，并使成熟的人类细胞产生诱导的多能干细胞

组蛋白修饰

DNA与组蛋白结合形成核小体，核小体在细胞核中以致密的染色质结构排列

组蛋白上的某些氨基酸可以被乙酰化、磷酸化或甲基化来修饰（如电负性）

组蛋白修饰可通过两种机制影响GE

组蛋白修饰可以导致DNA结构紧凑，使其更容易转录

蛋白质可以与组蛋白上修饰的氨基酸结合，改变DNA的转录

非编码RNAs

非编码RNA在转录和转录后过程的调节中起着重要作用

例如，miRNA通过抑制mRNA的翻译或促进其降解来调节GE，miRNA可以与mRNA结合并抑制蛋白质合成，这些miRNA的表达随着时间的推移而变化，这取决于细胞内和外部环境的变化

Posttranscriptional Processes

转录后加工包括前mRNA的5’端加帽、前mRNA添加polyA尾、通过剪接从RNA中去除内含子序列、可变剪接、基因融合转录本以及调节mRNA稳定性

在这些过程中，通过剪接从RNA中去除内含子序列、可变剪接、基因融合转录本事件可以影响GE的调节

从pre-mRNA中去除内含子序列的剪接是由被称为小核核糖核蛋白颗粒（snRNPs）的rna-蛋白质复合物催化的

经典的可变剪接( alternative splicing)模式有哪些类型呢？(https://www.bilibili.com/video/BV16x4y1M7h4/ "经典的可变剪接( alternative splicing)模式有哪些类型呢？")

当同一基因产生多个不同的转录本时，就会发生可变剪接。一个pre-mRNA转录本的选择性剪接可导致GE的变化。一个基因的编码区被称为外显子，平均而言，一个人类基因包含10-15个外显子。通过选择性剪接，这些外显子序列可以形成不同的组合，编码不同版本的蛋白质。

在可变剪接中，当两个非连续的基因组区域连接形成一个单个转录本时，就会发生基因融合事件

3.Common Sources of Variation in GE

研究人员可以在对GE数据的统计分析中控制其中一些因素，他们需要在设计GE研究时考虑这些因素，以便收集适当的数据进行后续分析

要找到GE数据存在差异的真正来源。如
使用TPM/FPKM/RPKM进行差异分析真的可以消除系统误差吗？

Tissue Specificity

GE具有组织、细胞特异性

组织特异性基因表达和调控（TIGER）在线数据库提供了关于组织特异性GE的深度和广度的信息（Liu et al.，2008）

包含三种类型的GE独特调控水平的数据：(1)组织特异性GE谱，(2)与多个转录因子的组合基因调控，(3) CRM检测

研究人员在进行GE分析时，应该考虑组织中相似细胞群中GE差异的来源

单细胞转录组测序可以检测细胞内和同一组织样本的细胞之间的GE变化，允许在组织中进行基于表达的细胞类型聚类，检测匹配的细胞类型中的转录改变，并发现新的细胞类型

Host Age

GE随着年龄的变化而变化，在一项荟萃分析中，作者发现，随着人类年龄的增长，56个基因持续过表达，17个基因低表达

Host Gender
Time of Sample Collection
Environment

GE受到环境因素的影响。例如，在一项关于因暴露于交通相关污染物而导致的GE变化的研究中，有25个核心转录本存在差异表达。这25个基因与与癌症、心脏病和慢性肺部疾病相关的通路有关。

Inherited Variation

GE受到遗传变异的影响，大量的研究已经探索了基因变异如何影响GE和某些疾病的风险

Transcript Level and Serum Protein Levels May Not Correlate

虽然蛋白质编码基因的转录水平可能会发生变化，但特定mRNA的转录水平可能与血清蛋白产物水平无关，对GE水平的了解并不能提供一个对蛋白质水平的可靠估计。

细胞内实际的转录本和蛋白水平会根据细胞外和细胞内环境的特征而波动，由于mRNA的快速降解、蛋白质产物的降解、水库效应或其他因素，mRNA的转录可能不能转化为蛋白质产物。

这些因素在我们设计实验阶段就应该进行充分考虑，以消除不必要的影响，在获取到数据进行降维如PCA后，如果发现样本并没有根据实验分组在PC1和PC2上区分开，则需要对混淆因素进行逐步筛查，并在模型中对这些因素进行说明或去除

4.Common Methods for Measurement of GE

Northern Blotting

Northern Blotting是一种用于确定样本中特定RNA的大小和数量的标准方法

Northern Blotting通常被用来测量tRNA或一组特定的mRNA

优点：包括程序简单和成本低
局限性：耗时，一次只能分析少量的样品，并且需要大量的起始材料和严格的寡核苷酸杂交

qPCR

qPCR是一种实时定量GE的方法

利用逆转录酶将mRNA模板转化为互补DNA（cDNA），每一轮扩增后测定DNA的量

荧光信号的水平与扩增的DNA的数量成正比，某一特定DNA的阈值周期（Ct）值是当扩增DNA分子的荧光信号首次检测到超过基线阈值时的周期数

Ct值取决于qPCR开始时mRNA的数量，并提供了GE水平的估计值

优点：易于使用，量化mRNA转录物的时间相对较短（8-12小时），以及能够使用多重方法检测多种mRNA转录物
局限性：需要对要量化的靶转录本序列有先验知识，并且在每个反应中只能量化少量转录本，这限制了该方法的产量

Microarray

微阵列技术利用cDNA链的核酸杂交原理，在一个单一的实验中量化大量的转录本

存在两种类型的微阵列：

原位合成的寡核苷酸微阵列使用长度为25个碱基的寡核苷酸，并通过light-directed的方法连接到芯片表面
cDNA微阵列使用从单链mRNA逆转录的单链cDNA

Microarray方法的优缺点：

优点：可以在一次实验中定量大量的转录本，可以同时测量数万个转录本，成本相对较低，不需要对转录本序列的先验知识
局限性：多个组织样本不能在一次检测中进行测试；对照和测试组织样本需要单独准备，这需要更多的时间，并可能导致输出数据的方差增加；RNA定量是由图像处理决定的，需要专门的设备和软件

RNA-seq

RNA测序的类型取决于研究的目的，例如，总RNA序列试图测量所有表达的RNA，编码RNA可以通过poly（A）捕获技术富集，小RNA可以通过尺寸选择和凝胶电泳富集。

此外，输入的RNA可以通过去除不需要的来富集感兴趣的特定种类RNA。例如，rRNA和Globin RNA在总RNA中占很大比例，并且在测序文库制备之前，通常被去除。或者，如果RNA序列已知，RNA捕获技术可以使用互补探针分离特定类型的RNA。

RNA通常是碎片化的，并分离出100-500个碱基的片段。输入的RNA被连接到被称为adapter的特定序列接头上，这可能包括后续扩增步骤的引物。片段和adapter连接的RNA分子通常长度为150-550个碱基对，被扩增并多次测序。

优点：转录本的大规模平行测序允许以单核苷酸分辨率检测潜在的基因组变化；与微阵列技术相比，RNA-Seq具有更大的动态范围来量化转录本；可以检测到数千个差异表达基因、数万个差异表达的基因亚型、数千个表达的遗传变异中的突变和种系变异以及转录亚型和剪接变异；与微阵列相比，RNA-Seq可以检测到30%以上的差异表达基因。
局限性：与微阵列相比每个样品的成本更高，以及下游分析的计算和数据存储负担更高

5.Factors to Consider When Choosing Tissue to Measure GE

Tissue Type
Tissue Availability
Tissue Management
Quality Control

收录于合集 #转录组周更

55个

上一篇鉴定lncRNA流程全套代码整理下一篇癌症样本全转录组数据的融合基因鉴定

喜欢此内容的人还喜欢

微信扫一扫
关注该公众号