cfDNA片段末端研究进展

细胞游离DNA(Cell-free DNA,cfDNA)是一种片段化的DNA混合物,由多种身体组织释放的DNA分子组成;cfDNA可以用于监测多种生物学过程,并且已经在胎儿、肿瘤和移植器官产生的cfDNA分子中得到证实。cfDNA标志物为无创产前检测(NIPT)和癌症检测(液体活检)提供了重要的技术路径,NIPT在临床实践中成功的被全球采用,持续的研究工作已经扩展到无创癌症检测,并尝试将“NIPT模式”运用于肿瘤学研究中。

对cfDNA生物学特性的进一步了解往往会催生新的诊断工具。除了cfDNA片段本身序列的变异特征外,其片段化特征也非常有趣;cfDNA的片段化呈现出远超预期的多维度特征,事实上,cfDNA的片段化并非是随机的,而是包含了其来源组织的信息;此外,cfDNA的片段化特征还有可能作为不同组学之间的桥梁,跨组学的对基因表达(转录组学)和碱基修饰(表观组学)进行推演。目前,多种cfDNA片段化特征已经用于NIPT、癌症和器官移植评估的研究,如片段长度(fragment sizes)、片段末端(fragment ends)、末端基序(end motifs)等[1]。2022年12月,Jiang等对相关领域的最新进展进行了回顾总结,本文对cfDNA片段末端特征的研究进展进行介绍。

cfDNA片段末端

Preferred Ends

来自不同组织的cfDNA的特征大小模式表明,在基因组DNA进入血液循环过程中,DNA发生了非随机断裂。根据母体血浆cfDNA的超深度测序结果,有一部分cfDNA的片段末端总是出现在基因组的某些位置,这类优先出现的cfDNA片段末端被称为“Preferred Ends”[2]。Preferred Ends呈现出cfDNA来源的组织特异性,例如,在母体cfDNA中,携带Preferred Ends的cfDNA更短,并且与胎源比例正相关[2]。此外,Preferred Ends成列出现,与核小体模式非常相似[3],并且广泛存在于各种组织中,例如肝移植患者血浆中的肝脏特异性的优选Preferred Ends和HCC患者中的肿瘤特异性的Preferred Ends [3]。

图1 Preferred Ends的概念示意图

在血浆DNA中使用肿瘤优选末端可增强HCC检测,AUC为0.88[3]。由于血浆DNA中存在大量Preferred Ends,因此对片段的末端特征的深入分析可能为早期癌症的灵敏检测铺平道路[3,4]。2022年,Bao等人报道了一项利用cfDNA片段化特征进行泛癌种检测的研究[4],该研究纳入1214名受试者,原发性肝癌(PLC)患者381名、结直肠癌(CRC)298名和肺腺癌(LUAD)292名,健康个体243名,研究结果显示,癌症检测的灵敏度≥91.5%,特异性95%,肿瘤定位准确性≥91.6%。研究中用到了4种cfDNA片段化特征,包括片段大小特征Fragment Size Coverage (FSC)和 Fragment Size Distribution (FSD)以及两种末端特征EnD Motif (EDM)和BreakPoint Motif (BPM)。可见,除了cfDNA的末端坐标(Preferred Ends)外,其末端序列特征也是一种潜在的生物标志物。

图2 利用cfDNA片段特征开展泛癌检测

End Motifs

先前的研究表明,cfDNA的5’末端序列具有明显特征,它优先从“C”核苷酸起始[5,6],但其背后的生物学机制当时并不清楚。Serpas等人使用基因敲除(KO)小鼠模型揭示了cfDNA末端基序的产生与DNA核酸酶相关[7]。据报道,野生型小鼠血浆cfDNA中最常见的CCCA基序,在DNA核酸酶Dnase1l3敲除小鼠中显著减少,同时以“CC”开头的前6种4-碱基末端基序(CCCA, CCTG, CCAG, CCAA, CCAT, and CCTC)的占比(7.4%)也在Dnase1l3敲除小鼠中明显下降(4.2%);相比之下 Dnase1 基因敲除则没有明显影响[7]。因此,DNASE1L3被认为是产生血浆cfDNA分子“CC”末端的重要DNA核酸酶。cfDNA末端基序分析为观察cfDNA片段化与核酸酶活性之间的联系提供了一个窗口。

图3 cfDNA末端基序的产生与核酸酶相关

Han等人进一步阐明了DNASE1(脱氧核糖核酸酶1)、DNASE1L3和DFFB(DNA片段化因子亚单位β)在不同敲除小鼠模型中的作用,该研究表明,cfDNA的片段化过程是逐次进行的,首先是在凋亡细胞内由DFFB介导片段化,随后是胞外DNASE1L3以及其他DNA核酸酶发挥作用;DFFB偏好产生A末端,DNASE1L3和DNASE1则分别偏好产生C末端和T末端片段[8]。

图4 不同核酸酶在cfDNA末端基序产生过程中发挥不同作用

据报道,DNASE1L3的切割特征(即“CC”末端基序)在DNASE1L3缺陷的人类受试者的血浆中也得到了验证。DNASE1L3缺陷可能会让血液中的DNA无法降解而堆积进而引发炎症反应[9],并导致儿童期发病的家族性单基因系统性红斑狼疮。对核酸酶相关切割特征的分析可能是疾病检测和治疗反应监测的有力诊断工具。研究发现,在健康人血浆cfDNA中最常见的末端基序CCCA在HCC患者中减少 [10]。与正常相邻非肿瘤组织相比,HCC肿瘤中DNAES1L3的mRNA表达下调,这一点与CCCA基序减少吻合[10]。

图5 cfDNA末端基序用于HCC检测

有趣的是,不止是在HCC中,DNASE1L3表达下调通常见于各种癌症类型,例如结直肠癌、肺癌、鼻咽癌和头颈部鳞状细胞癌,使用256种4碱基基序可以用于检测多种癌症,AUC为0.86[10]。许多其他研究小组也尝试探索了血浆cfDNA末端基序在肿瘤学中的潜在临床应用,2022年,最新的研究表明,采用锚定多重PCR技术分析末端基序分布(cfDNA-FEP, cfDNA Fragment End Profles ),可以对结直肠癌(CRC)和肾细胞癌(RCC)开展早期检测(CRC (n=58) 、 RCC (n=57)、healthy individuals (n=60)),训练集和测试集的AUC分别为0.91和0.94,cfDNA-FEP在III期、IV期样本中的表现(AUC为0.96,准确度0.89)略优于在I期、II期癌症样本(AUC为0.91,准确度0.87)[11]。

最近,Guo等人的研究展现了cfDNA末端基序特征在早期肺癌检测中的巨大潜力,该研究招募了292名I期LUAD患者和230健康个体,采用WGS对cfDNA的三种末端特征进行检测,分别是4bp末端基序,6bp末端基序和6bp断点基序,并评估不同的机器学习方法(深度学习(DL)、逻辑回归(LR)和XGBoost)结合不同特征的预测模型性能,比较结果表明6bp断点基序+逻辑回归模型性能更佳,并用于后续的性能评估。

最终结果表明,6bp断点基序+逻辑回归模型在内部验证队列中的灵敏度和特异性分别为98%和94.7%,AUC为0.985;在外部验证队列中的灵敏度和特异性分别为92.5%和90.0%,AUC为0.954。该模型对早期癌症灵敏度优异,微浸润腺癌(minimally invasive adenocarcinoma,MIA)灵敏度为100% ,<I cm肿瘤灵敏度为92.9%-97.7%,而且即使测序深度降至0.5x时,该模型仍然保持优异的预测性能,展现了良好的经济实用性[12]。

图6 基于不同cfDNA末端基序开展癌症早期检测的研究

人类甲基化修饰发生在CpG位点,有研究显示,DNase I切割甲基化CpG是切割非甲基化CpG的8倍[13],碱基修饰是否会影响包含CpG序列的cfDNA末端基序,这也是研究人员非常感兴趣的问题。不过,2021年,Han等人的研究表明,对cfDNA产生具有重要贡献的DNASE1L3核酸酶本身缺失时,基因组的甲基化状态已经发生改变,这意味着通过DNASE1L3敲除来研究DNASE1L3对CpG位点的切割机制就显得特别复杂[14]。2022年末,Zhou等人的研究表明,基因组CpG位点周围的cfDNA的切割模式确实是非随机的,这种差异性切割导致cfDNA 5’ 末端的CGN和NCG基序呈现特征性变化,CGN/NCG基序比率与组织特异性甲基化水平相关(例如,胎盘或肝脏)。

因此,cfDNA末端的CpG相关切割谱可用于cfDNA甲基化和溯源分析。使用含CpG的末端基序特征,区分HCC和非HCC患者的AUC为0.98,同时鼻咽癌筛查的阳性预测值也得到了提升(19.6 to 26.8%)。采用深度学习算法优化cfDNA切割模式对CpG甲基化的推算模型(FRAGMA),可以实现0.93的AUC。FRAGMA为无创性产前、癌症和器官移植评估提供了更多的可能性[15]。

图7 利用cfDNA末端推测碱基的甲基化状态

除了人源DNA的cfDNA,微生物来源的cfDNA末端特征也在最近的研究中得到揭示。2022年12月,Wang等人发表在《Clinical Chemistry》期刊上的研究表明,微生物cfDNA的末端基序分布似乎与核cfDNA相似,CC末端基序仍然是微生物cfDNA中最优选的末端序列,表明DNASE1L3也可能对血浆中微生物源cfDNA的切割中起作用,这一特点可以用于区分试剂或环境来源的微生物DNA[16]。

Jagged ends

cfDNA在高通量测序前通常经过末端修复步骤,cfDNA双链中突出的单链末端信息(称为Jagged ends)在这个过程中被掩盖。因此,cfDNA的Jagged ends的存在已经被错过了很多年,为了探索的cfDNA的Jagged ends特征,需要实验方法上的改变。由于人类基因组的甲基化通常发生在CpG位置,而非CpG则一般不会存在甲基化信号,Jiang等人利用这一点开发了检测cfDNA分子Jagged ends的方法,通过在cfDNA末端修复过程中引入人工甲基化C信号后,在亚硫酸氢盐处理后(BS),可以凭借非CpG位置的人工甲基化标记对Jagged ends进行分析 [17]。

图8 人为引入mC构建cfDNA文库,鉴定cfDNA的Jagged Ends;左图给出了判读Jagged Ends起始的示意图,CC碱基一般是非甲基化状态,如果断裂发生在第二个C位置,人工mC碱基在BS处理后保持不变,上游C碱基变为T,则判定Jagged Ends始于第二个C位置

Jiang等人的研究表明,与随机断裂的超声处理的DNA分子相比,血浆cfDNA分子具有明显更高水平的Jagged ends。此外,该方法可以根据如下原理Jagged ends的确切长度:Jagged ends起点可以通过两个连续胞嘧啶中一个非甲基化状态紧接着另一个甲基化状态的模式来划分。结果表明,88%的血浆cfDNA分子会带有Jagged ends。有趣的是,与孕妇和癌症患者的背景cfDNA分子(造血cfDNA)相比,胎儿cfDNA和肿瘤cfDNA分子具有更高程度的Jagged ends。血浆cfDNA的Jagged ends变异可以作为患有家族性或散发性SLE的人类受试者的生物标志物,其cfDNA经常观察到Jagged ends的增加;值得注意的是,最近的研究发现,关键的DNA核酸酶DNASE1L3在短和长cfDNA分子中发挥不同的作用,特别是DNASE1L3的缺失会增加短于150bp的片段的Jagged ends,但会降低涉及多核小体结构的长片段中的Jagged ends[18]。

图9 单核小体以及多核小体结构,典型的单核小体cfDNA由146bp核心DNA,20bp H1-bound Linker和4bp H1-free Linker DNA组成,共170bp(上);核酸酶缺失在小鼠模型中对不同长度的血浆cfDNA中的Jagged ends的影响(下)

血浆cfDNA的Jagged ends长度与DNASE1、DFFB或DNASE1L3活性有关,同时取决于核小体的结构。DNASE1L3在产生血浆cfDNA的Jagged ends方面发挥了更显著的作用,其优先将Jagged ends引入涉及多核小体(240-290bp,330-380bp,420-47bp等)的cfDNA分子,而DNASE1、DFFB的作用相对更小。DNASE1在不同长度的cfDNA中引入Jagged ends,包括Linker DNA到Core DNA位置。DFFB倾向于在两个核小体之间的Liner DNA中产生Jagged ends,得到平末端或相对较短的Jagged ends。因此,在生物学方面,影响DNASE1、DFFB或DNASE1L3切割的事件都有可能会造成Jagged ends特征的改变[18]。未来,在研究不同疾病模型中cfDNA的Jagged ends特性,需要协同不同的建库技术,例如基于不同长度粘性末端(N)的混合接头的建库方法 [19]。

图10 基于不同长度随机碱基混合接头连接的建库方法

推荐阅读