不再管中窥豹 | 长读长测序技术助力重复扩展性疾病的精准诊疗

重复序列扩增变异是一类特殊的基因组变异,当一段DNA(一般是较短的基序)的拷贝数量超过位点特异性阈值时,疾病就可能会表现出来。尽管重复扩展性疾病比较罕见,但据估计有1/3000的人群受到重复扩增变异的影响[1],尤其是对于神经科医生来说,重复扩增性疾病却又是最常见的遗传疾病。

重复序列扩增变异是50多种神经源性疾病的致病原因,包括亨廷顿舞蹈症、脆性X综合征等疾病。而这些疾病的临床表现复杂多样、涉及众多基因遗传异质性明显,因此,重复扩增性疾病的分子诊断一直是神经科医生面临的挑战。

图1 重复扩展性疾病的重复序列变异高度可变[2]

对于重复扩增疾病的分子诊断,传统检测技术的难度大,通量低。首先,致病基因的异质性很普遍,需要多次实验来检查可能的致病基因。第二,重复序列通常富含GC并且长度较长,这使得PCR变得困难。因此,必须为每个基因座专门设置PCR条件/引物/探针,不能实现一次检测多个候选位点。

在实践中,选择几个可能的致病位点进行诊断,有时又会导致漏检。传统的诊断方法主要基于毛细管电泳或Southern印迹分析;据报道,使用毛细管电泳检测FMR1相关疾病的诊断率<20% [3]。许多病人在经历了漫长的诊断旅程后仍然未能明确致病基因,而在重复扩展疾病治疗技术快速发展的今天,精确的基因分子诊断将有助于治疗试验的有效开展。因此,迫切需要一种高效、准确且经济的重复扩增检测技术。

图2 传统重复扩增检测技术[4]

以短读长测序(Short-Read Sequencing,SRS)为代表的新一代基因组技术为疾病诊断、致病基因发现和致病机制的理解提供了重要工具[5],SRS技术明显改善了重复扩增疾病的诊断率,SRS全基因组测序可以一次性完成多个候选位点检测,实现对某些重复扩增疾病30-50%的诊断率[6]。使用SRS的全外显子测序(WES)与性能更优异的信息分析工具(Expansion Hunter)能够可靠的检测脊髓小脑共济失调的重复扩展变异,灵敏度和特异性均可达到100%(以毛细管电泳标准)[7]。

SRS检测重复扩增的挑战主要来自于测序读长,常见的三核苷酸重复单元的串联扩展可能达到Kb级别,远远大于NGS的常规读长(150-300bp),这就导致了缺乏侧翼序列的Reads无法精确定位到基因组上,也不能精确评估重复单元的扩增数量,与之相比,长读长测序(Long-Read Sequencing,LRS)在这方面则具有得天独厚的优势。

图3 长读长与短读长在重复序列检测上的差异示意图[8]

以纳米孔和单分子实时测序(SMRT)为代表的LRS检测平台,满足扩展性疾病精确诊断的多种需求,包括1)筛查所有相关基因(包括任何新发现的候选基因);2)准确评估不同长度的重复扩展;3)寻找额外的诊断或预后标志物,例如DNA甲基化状态;4)提供更为全面基因组信息,例如提供精准的单倍体信息。

图4 SRS与LRS技术原理示意图[8]

纳米孔测序以DNA/RNA分子通过生物纳米孔的电流变化推测碱基组成而进行测序,其测序读长理论上没有上限,可以达到10kb以上甚至1Mb [9]。因此,与SRS不同,单个纳米孔读长更有可能完全覆盖整个致病性重复扩增区间。在一项研究中,80%-99.5%的Reads成功跨越了NOP56中扩增的“GGCCTG”重复(中位数37个重复)和C9orf72中的“CCCCGG”重复(中位数406个重复),以往对这种GC含量高,长度长的序列开展测序是非常困难的,而现在“天堑变通途”[10]。

与SRS相比,纳米孔目前表现出相对更高的测序错误率,但差距正在逐步缩小,在提高覆盖深度的情况下,其准确性也可以获得改善,一些研究已经证明了纳米孔测序技术可以对重复扩增进行准确的基因分型[11、12]。此外,纳米孔还可以直接鉴定DNA/RNA的碱基修饰(如DNA甲基化),为诊断相关重复扩增疾病(如c9FTD/ALS,FXS)提供额外的标记[13]。

图5 提高覆盖深度提高纳米孔检测准确性以及开展DNA甲基化检测[11、12]

精准诊断与治疗

脆性X-相关震颤-共济失调综合征(FXTAS)和脆性X综合征(FXS)有着相似的表型,FXTAS患者出现明显的震颤、共济失调、认知障碍和周围神经病变,而FXS患者大多出现认知障碍,两种疾病都与由于FMR1基因上的CGG三核苷酸重复扩展有关,当CGG重复55-200次(预突变)时表现为FXS,超过200次则表现为FXTAS。预突变型的CGG重复可能在遗传时进一步增加,达到完全突变;如果在三核苷酸重复序列中存在特异性中断序列(AGG)可能会降低这种风险(14)。

因此,LRS技术可以准确的检测重复次数和中断序列是否存在,从而能够更好的评估重复扩增的风险,并为对这两种X连锁疾病进行早期诊断和提供遗传咨询(15-17)。

图6 FMR1基因的CGG重复扩增与重复阻断效应[14、18]

亨廷顿舞蹈症(HD)是一种常染色体显性遗传性神经退行性疾病,由位于4号染色体上的HTT基因的CAG重复扩增引起,其重复次数与疾病严重程度和发病年龄呈负相关[19]。因此,重复次数的精确计算具有重要的诊断和预后价值。迄今为止,由于PCR滑脱效应和高GC含量的内在限制,SRS技术在HD的诊断准确性方面受到限制,而LRS技术则可以满足这一需求[20]。

此外,LRS技术已经证明了其在快速基因分型和单倍型分型的可行性,有助于个体化治疗方法的研发[21]。HTT基因编码Huntingtin蛋白,该蛋白可能对正常神经元功能很重要,选择性的沉默CAG扩增的突变型HTT(mtHTT),并同时保持野生型Huntingtin蛋白(wtHTT)的表达可能是更优的治疗策略。

在核酸药物治疗方面,可采用siRNA或ASO靶向mtHTT的SNP区域,选择性抑制mtHTT表达。但HTT基因长180kb,在基因组和mRNA上候选SNPs与CAG重复区域分别相距165Kb和9.5Kb,LRS技术在单倍型分型上的能力有助于靶点SNP的精准评估,这对于HD个性化治疗技术的开发至关重要[21]。

图7 HD选择性治疗技术依赖对HTT单倍型的精确检测[22]

在过去的几年间,LRS技术展现了其在重复扩展性疾病研究中发现致病基因和揭示致病机制方面的巨大潜力,系统的应用SRS和LRS技术将会发现更多新的重复扩增性疾病,为相关疾病提供准确诊断,甚至还可能开发出患者特异的个性化治疗方法。由于LRS的测序成本仍然较为昂贵,采用Cas、Capture和Read Until等靶向检测技术将极大地降低检测成本,为LRS在重复扩展性疾病的诊断实践铺平道路。

推荐阅读