Genome Research | 追根溯源,人类基因组可能包含超百万个“自主”外显子

       哺乳动物的mRNA和lncRNA外显子通常比内含子小。内含子/外显子边界包括相对较短和保守的5 ′和3 ′剪接位点序列(5 ′ 和3 ′ SS)。不过,大的内含子中也包含许多类似于5 ′和3 ′ SS的序列。根据外显子定义模型预测,外显子可以自主剪接,并取决于近端外显子序列特征,确定了它们在庞大的内含子中的划分。

 

       然而,界定外显子的序列特征仍然不完全清楚,由于这个原因,外显子定义模型尚未在基因组范围内得到明确确认。因此,目前尚不清楚人类外显子中有多少是自主剪接的,即包含足以使其剪接为成熟转录本的序列。

 

与此相关的一个基本问题是,人类基因组中存在多少能够被剪接成成熟转录本的外显子。目前,在约 20,000个已知的人类蛋白编码基因中注释了大约18万个内源性外显子,这占据了人类基因组的约1%。然而,更大比例的外显子可能由神秘的长链非编码RNA(lncRNAs)构成。

 

       目前已经发现超过80万个lncRNA外显子,其中至少有25万个是内源性外显子。相比之下,在经过精心筛选的ENCODE数据库中,仅有约 2.5万个内源性外显子被注释为lncRNA的一部分。许多lncRNAs 似乎非常罕见,因为它们的水平很低,或者仅在一个数据集中发现。绝大多数lncRNAs 没有已知的功能,而且许多显示的剪接信号要比蛋白编码基因弱。有人提出许多lncRNAs是作为转录“噪音”产生的,这可能是来自增强子的转录的后果。

 

       那么,这些长非编码RNA到底存在吗?他们的产生机制又是如何呢?此外,编码蛋白(mRNA)的外显子是否普遍是自主的,外显子是否存在于基因组的其他部分?针对这些有趣的问题,发表在Genome Research上的新研究进行了探索[1]

       在这项研究中,通过外显子“困捕”技术(图1),对人类基因组的大片段(500-1000bp)进行了检测。该方法首先构建了包含TRA2B基因的6号内含子,以及起始密码子,终止密码子和剪接、多聚腺苷酸化位点的pcDNA3.1载体骨架。将人类基因组DNA打断至500-1000bp后克隆到该载体中,并转入HEK293细胞系进行培养,随后提取RNA并利用特定引物和高通量测序检测,对插入片段的表达进行分析,以确定其是否转录。

      图1. genome exon trapping method示意图[1]

 

      通过对多个文库重复,reads数量进行筛选后,研究者对125万个“困捕”到的外显子进行了特征分析。图2A显示了外显子按基因组序列注释的主要类别。“困捕”外显子中最大比例是“ 基因间区”,其次是mRNA反义,很可能是因为这些序列占据了基因组的大部分。由于基因间区序列量很大,“基因间区”外显子的绝对数量也很高(424,632)。对于反义链,所得到的外显子比例和数量也相似(图2B)。  

         图2. 被“困捕”的外显子在基因组区域中的特征[1]

 

      有大量的外显子(11.0%)在mRNA的内含子中,主要位于正义链(见图2A)。然而,这些内含子中包含的外显子序列相较于其他区域要少,尤其是在mRNA反义链上(见图2B)。这一结果类似于偶然出现在内含子中的外显子,也就是说,偶然出现在反义方向上的外显子是无关紧要的,而偶然出现在正义方向上的外显子(即出现在编码pre-mRNA内含子中)则是有害的,并且随着时间的推移会被移除。尽管这些序列确实存在,可能代表潜在的可替代外显子,或者触发NMD调控的外显子,但也有可能它们被特定上下游机制 (例如相邻外显子的序列)排除,而这些机制在该研究的文库质粒中并不存在。

 

      被困在“内含子”中的外显子整体包含率比任何其他类别要低,包括“基因间”外显子(见图2C)。许多“内含子”外显子,尤其是那些包含水平较高的外显子,也出现在其他mRNA数据库中(非GENCODE);另外240个出现在mRNA-seq数据中(来自Snaptron数据库),表明它们在其基因组上下游中被使用(见图2D,左图)。此外,部分“内含子”外显子显示出主要序列保守性(见图2D,右图)。图2E展示了ITSN1基因的一个未注释区域,其序列既保守又在高表达水平(10,917个Reads )。据显示,GENCODE lncRNA 内部外显子中有 52% 的外显子至少有 100个reads(见图2F),这一比例与mRNA内部外显子(61%)相当。然而,仅存在于其他lncRNA数据库(而非GENCODE)的lncRNA内部外显子的平均仅为9.6%(见图2F),这表明这些外显子可能具有较低的剪接效率。我们假设,相对于仅出现在其他lncRNA数据库中的lncRNA,经过精心筛选的GENCODE数据库富集了剪接效率较高的lncRNA。

 

       数据还显示,在基因间区域和已知基因的反义链上,有许多序列可以被拼接成转录本异构体。这样的序列也存在于内含子中,但频率显著降低。这些“内含子外显子”类似于伪外显子-被剪接位点包围的内含子序列,但在剪接的mRNA中未被观察到。异常包含伪外显子被认为是一种未被充分报告的疾病机制[2],同时,也是治疗疾病的新途径。

        图3. 伪外显子激活的部分机制[2]

      人类基因组中的外显子“困捕”筛选在单个细胞类型中捕获了超过100万个内部外显子的剪接序列。大多数已知的mRNA外显子都被捕获到,表明编码基因的外显子主要是自主的,符合外显子定义模型。此外,人类基因组的非基因位置中普遍存在能进行剪接的序列。这一发现为那些保守性较差的长链非编码RNA的大量存在提供了一个合理的解释。外显子诱捕实验的一个核心发现是,人类编码蛋白基因中的大多数已知外显子是自主的。

      这些发现加强了人们对“暗物质”的理解。转录组中的大部分可能是已知基因调控的副产品,同时也可能是新型遗传实体的来源。该研究呈现的外显子“困捕”数据确定了这些区域将在表达时被纳入转录本中。这些数据有助于理解不受mRNA选择的剪接序列,并提供了跨越大动态范围的序列,从而进一步深入了解剪接密码。  

参考资料:

[1] Stepankiw N, Yang A W H, Hughes T R. The human genome contains over a million autonomous exons[J]. Genome Research, 2023, 33(11): 1865-1878.

[2] Petersen U S S, Doktor T K, Andresen B S. Pseudoexon activation in disease by non‐splice site deep intronic sequence variation—wild type pseudoexons constitute high‐risk sites in the human genome[J]. Human mutation, 2022, 43(2): 103-127.

推荐阅读