Cell综述 | 小RNA和lncRNA的过去、现在和将来

自1958年分子生物学中心法则提出以来,各种RNA种类被陆续发现。信使RNA (mRNA) 将遗传指令从DNA传递到蛋白质合成,这一过程由管家型非编码RNA (non-coding RNAs,ncRNA),例如小核RNA (snRNA)、核糖体RNA (rRNA)和转运RNA (tRNA)等辅助。

 

在过去的四十年里,各种调控性ncRNA作为基因调控的关键参与者崭露头角。为了庆祝《Cell》杂志创刊50周年,本文探讨了当前研究理解最为深入的调控性RNA——小RNA(small RNAs)和长链非编码RNA (lncRNA),它们深刻地影响了RNA生物学领域,甚至更广阔的科学领域。

        虽然小RNA通路及其明确的机制已得到充分研究,但lncRNA的机制多样性更大,许多机制仍不明确。本文介绍了其发现的关键阶段、生物发生途径、进化特征、作用机制、功能以及ncRNA之间的相互作用,重点介绍了它们在病理生理过程中的作用,并提出了未来的研究方向,以借鉴小RNA的研究经验,从而探究lncRNA的未知领域。

图 1. 几十年来小RNA和lncRNA的关键发现。

时间轴始于20世纪50年代核糖体RNA (rRNA) 和转运RNA (tRNA) 的鉴定,并逐步走向非编码RNA (ncRNA) 的概念。除了早期阶段对小RNA和lncRNA的意外发现及其潜在的调控作用外,近年来技术的进步极大地推动了各种ncRNA的注释、形成机制、作用方式和功能的理解。这些知识可能为现在和未来基于RNA的诊断和治疗的设计提供参考。

图 2. 小RNA和lncRNA的进化特征及保守性

(A) 后生动物miRNA的进化和保守性。海绵等后生动物门类中发现Drosha和Dgcr8的同源物,表明miRNA通路出现在后生动物共同祖先中,尽管该通路在某些后生动物谱系中已丢失。miRNA基因和家族的数量来自miRGeneDB 3.0。

(B) 保守的miR-125家族的例子。(上) 显示了人类pri-mir-125a的一部分二级结构,其中来自发夹5’的引导链(miR-125a-5p)和来自3’的乘客链(miR-125a-3p)用洋红色表示。这些结构和序列来自miRBase。(下) miR-125家族成员的比对,包括秀丽隐杆线虫lin-4和人类miR-125a。保守的种子区(第2-8位)用条形表示。

(C) 根据Necsulea等人的研究,简化的lncRNA系统发育树。从非洲爪蟾到人类,lncRNA数量总体上随着进化而增加。系统发育树的末端和每个生物体中lncRNA数量的增加用箭头表示。

(D) lncRNA保守性的分类。(1) 序列保守的lncRNA。由于lncRNA的进化速度快于编码序列或miRNA,人类和老鼠之间的典型序列保守的lncRNA在物种间同源性不低于20%。(2) 转录和加工保守的lncRNA同源物。这类lncRNA同源物通常来自不同物种的同源基因座。(3) 位置保守的lncRNA,具有保守的转录区域,而外显子位置和成熟的lncRNA序列则以中性方式进化。位置保守的lncRNA通常与直系同源的蛋白质编码基因和/或其他保守区域具有相同的相对方向。(4) 结构保守的lncRNA尽管缺乏序列同源性,但仍折叠成相似的二级或三级结构。结构保守的lncRNA有时被定义为“缺失”同源物,其中未通过主要序列保守性同源性识别。

图 3. 小RNA和lncRNA的生物发生过程

(A) miRNA的明确生物发生途径。在经典途径中,RNA聚合酶II合成pri-miRNA,其被由Drosha和Dgcr8组成的Microprocessor复合体切割,释放pre-miRNA。pre-miRNA由Xpo5输出,并在胞质中被Dicer切割。该加工产生miRNA双链体,其被加载到Ago上,Ago选择一条链(引导链)形成RISC复合体,丢弃另一条链(乘客链)。5’链或3’链的选择取决于末端序列和结构。存在一些非经典途径,绕过Drosha或Dicer。由去支化内含子形成的mirtron、直接由RNAPII转录产生的5’加帽pre-miRNA、snoRNA ACA45和异亮氨酸tRNA绕过Drosha加工。至于5’加帽pre-miRNA,3’链被选择为引导链。由于其短的茎-环结构,pre-mir-451无法被Dicer切割,而是在3’链中间被Ago2切割,并被3′-5’外切核糖核酸酶PARN进一步修剪以形成成熟形式。

 

(B) lncRNA的多样化生物发生途径和特征。长链非编码RNA主要由RNA聚合酶II (RNAPII)转录的RNA前体通过多种方式产生。大多数像mRNA的长链非编码RNA,其加工方式与mRNA类似,包括在细胞核中进行剪接、5’端m7G加帽和3’端多聚腺苷酸化,然后通过核孔复合体输出。mRNA一样的长链非编码RNA已被发现具有不同的功能,通过影响翻译、结合蛋白质或miRNA以及调节细胞质细胞器结构和功能。虽然核内保留的lncRNA有额外的机制来留在细胞核里,但图中未显示。一些其他长链非编码RNA通过非常规途径加工,产生独特的格式,并且通常保留在细胞核中。例如,NEAT1和MALAT1具有3’端三螺旋结构,由RNase P从单外显子转录本中修剪,而SPA和sno-lncRNA则从多顺反子转录本中加工,并由snoRNA-蛋白质复合体(snoRNP)在5’端或两端稳定。值得一提的是,核内保留的lncRNA已被发现调节染色质重塑、转录、核凝结物的组装和功能,并充当蛋白质或RNA的诱饵。RNAPII转录的RNA前体形成的环状RNA的生物发生,在其他地方有讨论。

图 4. miRNA生物发生和作用的分子基础

(A) miRNA 通路中的关键因子。此处以人类蛋白为例。DROSHA 形成一个名为 Microprocessor 的异三聚体复合物,与两个 DGCR8 分子结合。DROSHA 识别 pri-miRNA 的 5′ 端,而 DGCR8 结合 3′ 端。DICER 在 Platform 和 PAZ 结构域中分别结合 pre-miRNA 的 5′ 和 3′ 末端。此处显示的是人类 DICER 的催化状态,其会发生构象变化,尤其是在解旋酶结构域中。AGO2 与成熟的 miRNA 共同构成 RISC。MID 和 PAZ 结构域分别捕获 miRNA 的 5′ 和 3′ 末端。

(B) miRNA 与其靶标之间的相互作用。从 5′ 末端算起的第 2 到第 7 个碱基对于靶向至关重要,并被称为种子序列(用蓝色条表示)。在第 8 位碱基配对也有利于靶向。因此,第 2 到第 8 位碱基被称为种子区域。位于 miRNA 5′ 末端第 1 个碱基对侧的腺苷与 Ago 相互作用,增强靶标-RISC 的相互作用。3′ 端的互补序列也可以补充和稳定这种相互作用。

(C) RISC 的作用机制。(左)miRNA 和靶标之间广泛的匹配允许 AGO2 进行内切核酸酶切割,导致切割片段快速降解。(中)miRNA 和靶标之间不完全互补性导致通过 TNRC6 和 CCR4-NOT 复合物,以及可能通过 DCP2 和 DDX6 介导的去帽作用,导致去腺苷酸化。(右)不完全匹配的靶标至少通过三种机制受到翻译抑制。TNRC6 与 DDX6 相互作用,进而与 4E-T 结合,促进 eIF4E 和 eIF4G 的解离。TNRC6 还促进细胞质 PABP 的解离,这对于翻译起始至关重要。在 TNRC6 独立的机制中,AGO 诱导 eIF4A 解离。

图 5. lncRNA代表性的作用模式

(A) lncRNA 参与表观遗传和转录调控,以 X 染色体失活 (XCI) 期间的 X 染色体失活相关的 lncRNA (XIST) 为例。XIST 是高度结构化且在进化上保守的 lncRNA,转录自失活的 X 染色体 (Xi)。XIST 通过协调其相关蛋白的逐步募集,保证 X 染色体剂量平衡,从而成为 XCI 的主要调控因子。XIST 中的重复序列和结构元件对于招募特定蛋白至关重要。例如,A 重复序列 (RepA) 被 SPEN/HDAC3 识别,而 B 重复序列 (RepB) 和 C 重复序列 (RepC) 可以招募 hnRNPK/PRC2(见图 5D,右)。携带 Xist 基因缺失的雌性小鼠在胚胎发生中表现出严重的生长迟缓和早期致死。

(B) lncRNA 在组织、支架和调节核凝结方面发挥着重要作用,以核内丰富转录物 1 (NEAT1) 为例。NEAT1_2,较大的亚型,对于组装单个核旁小体至关重要,其中它将数十种核旁小体蛋白聚集形成一个核旁小体核心-壳结构。NEAT1_2 的中间区域位于核旁小体的中心,其 3′ 端和 5′ 端区域位于外周。NEAT1_2 的不同区域与不同的蛋白质伙伴相互作用(见图 5D,中)。减少 Neat1 表达会导致胚胎发育停滞或冷暴露后致死。

(C) lncRNA 可以作为靶标、隔离和伴侣各种蛋白质伙伴以发挥功能,以 DNA 损伤激活的非编码 RNA (NORAD) 为例。NORAD 作为 PUM 蛋白的靶标,在超比例比值下与 PUM 蛋白结合。每个 NORAD 包含 18 个 PUM 识别元件 (PREs),比其他数千个 PUM 结合转录物更有效地结合 PUM 蛋白,并随后引发相分离的 PUM 凝结物(见图 5D,左)。该模型使 NORAD 能够竞争性地隔离超比例量的 PUM,防止异常有丝分裂中 PUM 活性的增强,从而促进基因组稳定性。Norad 基因敲除的小鼠由于 PUM 过度激活而导致基因组不稳定,表现出类似早衰的多系统退行性症状。

(D) NORAD、NEAT1_2 和 XIST 的模型,它们具有主要的结合位点或形成次级结构,以在特定时间和空间发挥作用。识别出单个 lncRNA 中的特定 RBP 结合基序和结构元件,它们在募集不同蛋白集以执行功能中起着至关重要的作用。

图6. 小RNA与lncRNA之间的Crosstalk

(A) 生物发生过程中miRNA和lncRNA的相互作用。(左) 一些lncRNA包含局部发夹结构,作为pri-miRNA产生miRNA,以H19 lncRNA为例,其发夹结构产生两个保守的miRNA,miR-675-3p和miR-675-5p。(右) 一些lncRNA可能调控miRNA的加工。例如,lncRNA MPRL与pre-miR-483的顶端环区域结合,干扰其与DICER的相互作用,从而降低miR-483的产生,尤其是在顺铂诱导的应激下。

(B) miRNA和lncRNA之间的功能相互作用。(左) 一些丰度高的lncRNA可能通过与miRNA结合来调控基因表达。值得注意的是,这种miRNA海绵(ceRNA)假说通常在生理条件下不太可能发生,除非海绵RNA丰度很高,且包含多个高亲和力、紧密排列的miRNA结合位点(MREs)。因此,应仔细评估所检测RNA的比例。(右) miRNA、lncRNA Cyrano和环状RNA Cdr1as之间的复杂相互作用。Cyrano与miR-7碱基配对,通过靶向miRNA降解(TDMD)机制降解miR-7,从而保护Cdr1as免受miR-7的降解,尤其是在神经元中。另一种miRNA,miR-671,结合Cdr1as,并诱导Ago2催化其剪切。

miRNA的病理生理作用

在人类中,每个miRNA家族平均预测能控制超过400个保守靶标,通过超过300个保守的7或8个碱基对靶位点(包含6个碱基对靶位点则超过500个)。这表明,大约60%的人类mRNA是miRNA的保守靶标。此外,考虑到大量靶位点具有中等但显著的影响,似乎绝大多数转录组都受miRNA调控。

尽管每个位点通常抑制程度不到20%,但miRNA和编码基因之间的密集网络增强了基因表达的稳定性和适应性。转录控制建立了mRNA的初始库,miRNA精细调控转录组,塑造了发育过程中复杂而稳定的基因表达模式。鉴于miRNA在几乎所有发育和生理过程中发挥着广泛作用,miRNA水平的变化与人类疾病表型相关,并且miRNA调控的紊乱常常导致动物模型出现病理缺陷(图7)并不令人惊讶。

miRNA的表达可以有多种方式失调。首先,miRNA基因的突变会显著影响miRNA水平及其靶向特异性。许多癌症类型中都观察到miRNA基因的缺失或扩增。一个典型的例子是人类13q14染色体DLEU2基因座的缺失,该缺失与慢性淋巴细胞白血病(CLL)和前列腺癌密切相关。341 DLEU2内含子区域发现了miR-15a和miR-16-1两个miRNA簇。这两个miRNA基因的小缺失导致小鼠B细胞增殖和恶性肿瘤。miR-96是第一个与孟德尔遗传病相关的miRNA例子。miR-96种子区的点突变会导致非综合征性进行性耳聋(DFNA50,常染色体显性遗传)。靶向基因组编辑纠正种子序列,或成为mir-96突变患者的潜在治疗方法。

3’非翻译区(3’UTR)的基因变异会影响miRNA的靶向作用。SLITRK1基因序列变异会影响miR-189的靶向作用,这与抽动症(一种神经精神疾病,表现为抽动)有关。405 AGTR1 3’UTR中miR-155靶位点的多态性与高血压相关。另一个有趣的例子出现在以肌肉发达著称的天然绵羊品种泰克尔绵羊身上。事实证明,泰克尔绵羊肌生成素基因的3’UTR存在特定序列变异,使其成为miR-1/206家族的靶标。miR-1/206在骨骼肌中表达丰富,抑制肌生成素,从而导致肌肉肥大。

除了miRNA及其靶标的这些突变外,生物发生因子的改变也会导致miRNA调控异常,从而导致病理状况。miRNA与转录调控网络紧密相连,许多miRNA受具有致癌或抑癌作用的转录因子调控。例如,p53激活抑癌miRNA,如miR-34和miR-29家族;而c-Myc则诱导致癌miRNA,如miR-17/106家族。转录后调控也扮演重要角色,例如let-7受Lin28抑制,miR-34则受ATM和Clp1激活。

此外,Drosha和Dicer等加工因子的基因突变会影响多种miRNA的表达。在Dicer1综合征患者中,发现许多导致DICER活性部分缺陷的突变。在催化位点发现了突变热点,但影响pre-miRNA结合的PAZ和平台结构域等其他重要区域的突变也会影响Dicer的活性。


lncRNA在病理生理过程中的作用

与已知的miRNA通路相比,lncRNA的加工缺乏普遍的调控因子,这使得难以评估lncRNA在体内及病理过程中 的整体效应,如果有的话。然而,与lncRNA多种多样的分子机制相符,大量证据表明lncRNA在病理生理过程中,包括发育、代谢、神经、心血管、癌症和免疫系统等方面发挥着调控作用(图7)。


可衡量的表型,包括发育缺陷、早衰和代谢紊乱,在单独缺乏Xist、Norad、Pair、Neat1(小鼠中为Menb)的动物身上已被报道(图7),其作用方式各异(图5)。弄清楚lncRNA在体内的作用,需要时间和大量实验室工作。例如,早期遗传研究发现,在正常实验室条件下,敲除小鼠体内的Malat1或Neat1,并没有明显的表型变化。后来,发现Malat1与内皮细胞功能和血管生长有关。NEAT1对部分小鼠的黄体形成和怀孕至关重要,而Neat1减少导致胚胎停止发育。此外,缺乏NEAT1的小鼠易受寒冷刺激,这是由于其褐色脂肪细胞分化受阻所致,其分子机制尚不明确。这些结果让人担心,目前动物饲养条件是否限制了我们对lncRNA真实世界病理生理作用的理解。


lncRNA保守性的复杂程度(图2C和2D)以及区分lncRNA的作用与其基因座的转录活性的挑战,使得难以在动物中进行lncRNA的表型研究。通过系统性基因敲除,生成lncRNA敲除小鼠,并保持基因座的转录活性,从而研究lncRNA的体内功能。这类研究发现五种缺乏Fendrr、Peril、Mdgt、Brn1b或Pint的突变小鼠品系,它们表现出围产期和产后死亡或生长缺陷。这表明这些lncRNA对于生命和发育是必需的。这些lncRNA如何调控最终导致可观察表型的产生,目前还不清楚。基于CRISPR技术的策略加速了lncRNA的表型研究,至少在细胞和异种移植模型中是如此。开发了失活的CRISPR-Cas系统,与转录因子融合,以避免大片段缺失,包括lncRNA基因抑制(CRISPRi)和激活(CRISPRa)实验,从而改变lncRNA表达,而无需删除目标lncRNA基因座的大片段。此外,最近开发的基于CRISPR-Cas13的RNA耗竭方法为研究lncRNA在胚胎发育过程中的功能提供了另一种策略。尽管为了功能研究而对lncRNA进行基因删除,但不断改进的基因敲除技术在细胞水平上表明,许多潜在的功能性lncRNA参与了免疫系统(从先天免疫到适应性免疫,再到炎症)的调控,以及肿瘤发生过程中(从增殖和存活能力,通过代谢增强,最终影响肿瘤微环境)。此外,许多参与肿瘤发生的lncRNA可以在整理好的数据库中找到,例如Lnc2Cancer或癌症lncRNA目录。这些lncRNA通常似乎是不保守的。这既给未来的遗传研究带来挑战,也说明了它们在不同环境下的独特调控与组织和细胞特异性表达模式相符,突出了基于特定表达和作用机制的精准医学的未来潜力。例如,PCA3现已被美国食品药品监督管理局(FDA)批准作为lncRNA生物标志物,并用于诊断前列腺癌。


一个重要的发现是,lncRNA表达的异常与遗传疾病相关。例如,D4Z4结合元件转录物(DBE-T)是一种仅在面肩肱型肌营养不良(FSHD)患者中存在的染色质相关lncRNA。DBE-T招募三甲基化组蛋白组蛋白Ash1L蛋白到FSHD基因位点,从而驱动组蛋白H3赖氨酸36位二甲基化、染色质重塑和4q35基因转录。普雷德-威利综合征 (PWS) 患者的15q11-q13父本缺失包含多种sno-lncRNA和SPA,这些sno-lncRNA的缺失可用于PWS的早期诊断。最近的一项研究表明,保守型lncRNA CHASEER的单倍体缺陷会导致严重的脑发育障碍。CHASERR位于染色质结构域解旋酶DNA结合蛋白2(CHD2)的上游,135 CHASERR单倍体缺陷导致CHD2表达增加,从而导致脑发育障碍的进展。


重要的是,了解lncRNA相关的遗传病因,可能带来新的临床突破。例如,Angelman综合征是由UBE3A母系遗传等位基因异常导致的神经发育障碍。UBE3A的父系等位基因受UBE3A-AS印记调控,而激活父系UBE3A被认为是治疗Angelman综合征的潜在方法。针对UBE3A-AS转录的GapmeR ASO抑制剂确实激活了父系UBE3A,最近宣布了一项成功的2期研究。尽管用于lncRNA研究的合适动物模型仍然不足,但在人类遗传学中的这些证据清楚地将lncRNA表达的异常与人类疾病联系起来,并指出了未来疾病治疗的新方向。

图 7,非编码RNA的病理生理作用

根据其参与发育、神经系统、心血管系统、代谢过程、癌症进展和免疫调节等功能,将具有明确病理生理作用的非编码RNA分为六组。列出的miRNA以蓝色显示,lncRNA以粉色显示。值得一提的是,列出的非编码RNA在进化上保守,并在动物模型或患者异种移植研究中观察到可衡量的效应。这些非编码RNA在多个系统中发挥调节作用,lncRNA的作用机制通常有所不同。

展望

过去三十年,非编码RNA(ncRNA)种类发现突飞猛进(图1),每种都具有独特的进化特征、不同的生物发生机制、不同的长度、结构和亚细胞定位(图2和3),从而导致其独特的分子功能(图4、5和6)和生理作用(图7)。因为小RNA的保守性和丰度更高,所以人们先研究了小RNA,之后才研究长链非编码RNA(lncRNA)。相比之下,lncRNA由于表达量通常较低、结构变化多端以及序列保守性较低,呈现出更多复杂性。虽然miRNA通过比较统一的生化途径发挥作用,但lncRNA采用更多样化的机制,且途径之间缺乏共通性,这使得它们的解码更加复杂。

 

最近的技术进步将ncRNA生物学的理解带入了一个新时代。诸如修饰的RNA探针、荧光RNA适体和CRISPR-Cas系统等创新,结合超分辨率显微技术,现在能够动态可视化丰富的lncRNA,从而阐明RNA在亚细胞结构和生物过程中的作用。单细胞RNA测序和空间转录组测序能够全面分析其天然组织和分子环境中的mRNA和ncRNA。先进的RNA富集方法和长读长测序促进了新类型ncRNA的发现,揭示了额外的隐藏遗传信息。人工智能(AI)驱动的计算建模,结合其他方法,包括冷冻电镜(cryo-EM)和核磁共振(NMR),现在阐明了ncRNA的进化、三维结构和功能。

 

通过这些努力,人们对ncRNA的病理生理作用的理解越来越深入,其中许多表现出与人类疾病密切相关的独特表达模式和调控作用,有些已被识别为生物标志物或治疗靶点。鉴于lncRNA的保守性较低,有必要进行额外的动物模型和人类类器官模型研究,特别是它们对病理刺激(例如化疗和免疫疗法)的反应。事实上,利用人类脑类器官模型已经鉴定了胶质瘤中的治疗性lncRNA靶点。

 

lncRNA的功能(图5A-5C)和结构(图5D)有待进一步阐明。未来需要进一步研究lncRNA的加工和折叠机制,这可能为开发针对疾病相关lncRNA的新疗法提供思路。例如,人们已开发出寡核苷酸来调控lncRNA在病理生理过程中的作用。例如,GapmeR ASOs已被用于改变疾病相关lncRNA的转录水平。小分子化合物可破坏Xist的功能结构域,从而干扰XCI过程。此外,人们开发了lncRNA HULC的结构模拟物,以干扰PAH的活性,从而维持肝脏的代谢平衡。更好地理解lncRNA的结构,有助于开发靶向疾病或组织特异性lncRNA的下一代药物。

 

化学修饰会影响RNA的加工、活性及稳定性。尽管已描述了超过100种RNA修饰类型,但大多数修饰在miRNA和lncRNA中相对较少。除了RNA上的天然化学修饰外,可编程策略可将生物学不活跃的RNA结合化学物转化为生物活性降解剂,例如RNase L,从而成功靶向结构RNA区域并通过结合小分子实现降解。进一步开发用于RNA标记的化学稳定性热/光稳定探针、定向设计异源核酸,以及提高化学合成核酸的稳定性,将有助于更好地理解基础ncRNA生物学,并为治疗潜力提供新的策略。

 

尽管如此,小RNA和lncRNA的研究将持续取得令人兴奋的进展。这些进展不仅包括识别出意外的ncRNA种类和修饰,还包括阐明其在单分子和高分辨率水平上的动态加工和周转模式,以及阐明其分子机制、病理生理作用以及与微环境的串扰。未来努力,特别是拥抱用于ncRNA研究的最前沿和多学科技术,将增强我们对它们的基本生物学过程及其治疗疾病的潜力的理解。

参考资料

1.Small and long non-coding RNAs: Past, present, and future. Chen, Ling-Ling et al. Cell, Volume 187, Issue 23, 6451 – 6485

推荐阅读

这是测试文本,单击 “编辑” 按钮更改此文本。