或为Repeatome正名,重复扩展性疾病研究正在迎来新契机

相较于基因组,转录组和表观组,重复组(Repeatome)这个概念并不为人所熟知,事实上,超过50%的人类基因组序列可能是由Repeatome组成。由于方法学限制,大部分重复序列在历史上被认为是“基因组垃圾”,不过,随着第三代测序技术(长读长测序技术,Long-read sequencing (LRS))的逐步成熟,LRS正在为Repeatome研究打开大门,原来模糊不清的基因组区域在LRS的视野已经变得前所未有的清晰,虽然对这些先前不可检测区域的变异性进行评估并区分它们的正常和致病状态还需要很多年,但是,这显然是一个新的基因组时代的开始,我们正在见证历史。

图1 主要技术突破与重复序列相关疾病的发现[1]

串联重复序列(Tandem Repeat,TR)

Repeatome主要由串联和散布的重复序列组成,简言之,串联重复序列(Tandem Repeat,TR)主要是指由重复单元(基序)串联而成的重复序列,例如(CGG)n; 而散布的重复序列则是分散在基因组上,反复出现,例如转座元件(SINE、LINE等)。目前,串联重复序列(TR)的研究相对更为深入。

串联重复序列(TR)按照重复单元的基序长度可以分为微卫星DNA(Microsatellite  DNA,1-6 bp)和小卫星DNA(Minisatellite DNA,>6bp),其中,微卫星DNA也称为短串联重复序列(Short Tandem Repeat,STR),而小卫星DNA则由串联重复的较长(>6bp)基序组成,也称为可变数目串联重复(VNTR)。相对来说,目前对于STR的研究最为深入和全面。

图2 不同基因区域的串联重复序列(TR)变异导致疾病[2]

由于Repeatome的研究并不充分,其特征分类的定义也并不统一,为了便于后续研究,最近有学者提出了对串联重复序列(TR)的命名原则,如下表所示,建议避免使用“短串联重复(STR)”一词,因为不同研究对“短”的定义不同。据估计,人类基因组中有超过100万个离散STR基因座,约占基因组DNA的3%。但新的研究表明,这些STR可能是最初预测的两倍多,占人类基因组的6.77%[3]。随着研究的深入,基序长度的不断增加将进一步混淆“短”、“中”和“长”的定义,因此,更推荐使用“串联重复序列(TR),具有X个核苷酸的基序”的准确描述。可以看出,科学家们正在为即将到来的研究热潮做好前期准备。

表1 串联重复序列的推荐定义[1]

TR扩展性疾病

与传统的碱基序列变异不同(SNV),TR变异拥有独特的特征,主要是基序单元的数量变化,并在人群中呈现多态性,特定的TR基序单元数量的异常增加(扩展)是人类群体中一类重要的致病性变异,迄今为止,已有超过50种与扩增基因座相关的疾病被报道,这类疾病也被称为TR扩展性疾病,例如亨廷顿舞蹈症(HD)、脆性X综合征(FXS)等,这些疾病中的大多数是神经系统疾病。据估计,每10万人中至少有1至10人感染一种TR扩展性疾病。

 

脆性X综合征(FXS)是首个被发现的TR扩展性疾病,是一种X连锁不完全外显性遗传病。FXS患者的细胞在特殊培养基中经诱变剂作用后,部分细胞的X染色体的Xq27.3位点出现缩窄“缢痕”,如同断裂的脆性部位而得名。

 

1991年,研究者发现,FXS患者的X染色体“缢痕”产生的原因,是来自FMR1基因5′非翻译区(UTR)中CGG基序的重复拷贝数从6-50个增加到200-2000个导致的,CGG基序的拷贝数增加导致了DNA结构的变化并影响了DNA与组蛋白形成核小体,因此X染色体的末端会出现“缢痕”。

图3 X染色体“缢痕”示意图[4]

在遗传学方面,TR扩展性疾病具有数量特征和遗传早现等特点,TR扩展性疾病通常不会简单的产生二元表型(即患病和非患病),而是产生连续的数量表型(例如,疾病发病年龄或疾病严重程度),同时其临床表现为遗传早现,即随着疾病从一代传播到下一代,其发病年龄更早或更严重,并且受到基序单元的重复次数的影响(扩展越多,发病年龄越早,表型越严重)。

图4 TR扩展性疾病的遗传特点[5]

TR扩展性疾病可以根据串联重复序列是否位于5ʹ UTR、内含子、外显子或3ʹ UTR进行分类。重复序列的基因位置,以及特定的串联重复序列基序,可以在DNA、RNA和蛋白质水平上产生影响,包括促使DNA超甲基化而沉默基因表达、在RNA水平形成复杂结构导致RNA毒性以及在翻译水平产生毒性肽等,进而导致细胞和系统的病理结果。外显子区域的TR扩展性疾病-多聚谷氨酰胺疾病 (polyglutamine diseases),包括脊髓小脑共济失调症、亨廷顿舞蹈症等,由于CAG三核苷酸基序的拷贝数增加会翻译出带有多聚谷氨酰胺链的毒性蛋白,在细胞质以及细胞核中聚集,最终导致神经细胞的死亡。重复序列还可以通过RAN机制(Repeat-Associated Non-ATG)在非ATG位点起始,翻译出毒性肽而致病,例如C9ORF72类TR扩展性疾病,包括额颞叶痴呆(FTLD)和渐冻症(ALS)。

图5 重复序列变异的具体作用机制[6]

全面了解重复序列在疾病中的作用,将有助于采用新的治疗方法对其进行选择性靶向治疗。从理论上讲,在明确了致病机制后,通过核酸药物下调(例如ASO和siRNA)或上调(基因治疗等)特定基因的模块将推动相关治疗方法快速发展。例如,在一名C9ORF72基因携带G4C2重复扩增突变的患者中,利用反义核酸药物(ASO)靶向重复扩增相关区域,患者脑脊液中poly(GP) Dipeptides的水平显著降低,重复给药耐受性良好[7]。利用siRNA或ASO核酸分子,通过靶向HTT基因重复序列或是选择性沉默突变型等位基因也是治疗亨廷顿舞蹈症的核酸药物开发思路 [1]。

图6 反义核酸药物治疗TR扩展性疾病[7]

新的契机

20世纪90年代,新的TR变异的不断发现得益于人类基因组计划。此后,21世纪的第一个十年见证了第二代DNA测序技术的快速发展(短读长),随着人类基因组序列草案的完成,这些高通量测序平台促进了大量致病基因的发现。然而,由于测序读长和可用于处理重复序列分析工具的局限性,短读长测序重复序列的研究仍然具有一定的挑战。正如Song等人在2018年所讨论的,现有人类参考基因组中TR的长度可能与实际大小相差10-100倍[8]。

图7 长读长测序对TR序列检测更为有效[3]

长读长测序(LRS)是发现重复序列相关疾病基因的一个新兴机会,一方面,LRS可以得到“无缝”参考基因组,填补参考基因组中的众多空白,为重复序列比对提供更精确的参考;另一方面,LRS在鉴别复杂序列的能力进一步提升,例如发现新的扩增重复单元“插入”到了另一个重复序列中的识别能力(比如SCA31中TGGAA重复插入到TAAAA重复位点);此外,LRS还能够分析具有较长重复单元的TR,这些重复单元已知与各种复杂疾病相关,例如最近发现的导致骨骼肌疾病的99-mer的重复扩增,以及与阿尔茨海默病(AD)风险增加相关的具有约507 bp重复单元大小的MUC6 VNTR。

 

目前,我们的研究更多是局限在~1%的人类基因组上,还有99%的区域等待发掘。这些“基因组暗物质”究竟有什么功能,在人类进化的长河中发挥着怎样的作用,它们与人类疾病又有着怎样的联系呢?长读长技术的发展为系统研究串联重复和重复扩增对人类疾病遗传的影响提供了一个独特的契机,并将为未来发展个性化治疗铺平道路。在短读长的前期积累的基础之上,我们期待长读长测序能够给出他的答案。

推荐阅读