Genome Medicine| CRAG:利用全基因组测序鉴定cell-free DNA片段模式热点区域的计算工具

来自患者血浆的cell-free DNA(cfDNA)是一种有前景的非侵入性生物标志物,可以用于疾病诊断[1]。cfDNA的片段模式在基因组中的分布并不均匀,在癌症中会发生改变,这为检测早期癌症提供了来自肿瘤和外周免疫细胞的信号[2,3,4]。然而人们对于早期癌症中精细尺度的cfDNA片段模式信息知之甚少。最近,有几种方法被用来探索癌症中cfDNA片段的全貌,如转录起始位点(TSS)和转录因子结合位点(TFBS)附近的模式,方向感知的cfDNA片段(OCF)。cfDNA的首选末端位置、motif多样性评分(MDS)、碱基水平的大规模片段模式(DELFI)、核糖体定位(窗口保护评分,WPS)以及多模式整合[5,6,7,8,9,10,11,12,13,14]。然而,每种方法都有自身的特点和局限。这些因素制约了人们对早期癌症发病过程中潜在的未知基因调控畸变的定性研究。

为了克服这些挑战,人们需要一种无偏好的全基因组测序分析方法,直接从cfDNA片段中筛选感兴趣的区域。为此,辛辛那提儿童医院医学中心(CCHMC)的研究团队在Genome Medicine上发表题为“CRAG: De novo characterization of cell-free DNA fragmentation hotspots in plasma whole-genome sequencing”的研究论文[15],提出了一种de novo的方法来描述来自血浆全基因组测序cfDNA片段的热点模式特征。该论文开发了一个名为Cell fRee dnA fraGmentation(CRAG)的计算方法,通过利用cfDNA配对WGS数据的加权片段覆盖率来识别全基因组的cfDNA片段热点。作者观察到这些片段热点在开放的染色质区域和相关的基因调控元件上有高度富集的现象。数据结果证实早期癌症中的cfDNA片段存在畸变。同时作为一项早期概念性研究,作者也论证了利用这些癌症特异性片段热点来检测和定位多种早期癌症的可行性。

CRAG:一个描述cfDNA片段热点的概率模型

图1 CRAG分析方法示意图:a 使用cfDNA热点进行癌症诊断的示意图;b 识别cfDNA热点的示意图;c IFS分数分布的负二项式模型的Q-Q图;d 热点周围的IFS分布(BH01为健康个体)。

作者提出了一个计算框架来描述片段化程度高于局部和全局背景的精细基因组区域,定义为cfDNA片段热点(图1 a, b)。由于片段覆盖率和大小都是评估片段化过程的重要部分,那么可以通过该区域的平均片段大小与整个染色体的平均片段大小之比来权衡每个区域的片段覆盖率,命名为综合片段化得分(IFS)。作者提出的负二项式模型正确地捕捉到了背景中IFS的变化,并指出了局部区域存在cfDNA片段化热点(图1 c)。作者利用局部(50kb)和全局(整条染色体)的背景来确定重要的热点,这对研究拷贝数变化特别有用。由于测序覆盖率通常受G+C%含量的影响,研究者还用区域内的G+C%含量对IFS信号进行了归一化处理。作者使用来自健康非怀孕个体的cfDNA深度WGS数据(BH01,~100X)作为主要数据集来测试整个方法。在BH01数据集中,作者确定了138,938个cfDNA片段的热点。BH01和另一个来自健康个体的独立数据集(IH01,~100X)中的IFS分布都显示了BH01热点中心的预期衰减(图1 d),表明该方法正确地捕获了全基因组的片段化热点。

cfDNA断裂热点高度富集于开放的染色质区域和活跃的基因调控元件中

作者接下来探索这些片段热点在健康人(BH01)中的基因组分布特征。与之前对开放染色质区域的研究相似,来自cfDNA的片段热点在CpG岛(CGI)启动子和CTCF上高度富集,但在非CGI启动子、5′外显子边界、转录终止位点(TTS)和随机基因组区域没有富集(图2 a)。作者发现与活性调控元件相关的表观遗传标记的高度富集(图2 b,c)。此外,来自造血细胞类型而不是其他细胞类型的增强子标记H3K4me1在热点周围表现出高度富集,造血细胞类型是健康人中cfDNA的主要贡献者(图2 d)。为了进一步了解片段热点在不同染色质状态下的富集情况,作者利用了NIH Roadmap表观基因组学图谱联盟的不同细胞类型的chromHMM分割结果。热点主要显示在造血细胞类型的组织/细胞类型特定的chromHMM状态中富集,而不是其他细胞类型(图2 e)。作者利用不同类型的细胞中匹配的构成性开放区域和封闭区域来衡量通过片段化水平检测开放染色质区域的准确性,进一步表明片段化热点和开放染色质区域之间存在紧密联系。

图2 cfDNA碎片热点在健康人的活跃基因调控区富集

作者收集了523个公开可用的开放染色质区域数据集,通过DNase-seq或ATAC-seq在不同的细胞类型中进行测量。数据选自Roadmap Epigenomics Consortium、ENCODE、BLUEPRINT和其他数据库的肝脏和休息或激活的免疫细胞,来源于非孕期的健康个体。有趣的是,在排除了与所有这些已知的开放染色质区域的潜在重叠后,作者注意到热点在TEs 3′端之后的motif富集。此外,作者还发现热点和该区域的表观遗传状态之间存在潜在的功能关联(图2 h)。研究表明,在健康人中,de novo发现的cfDNA片段热点高度富集于开放染色质区域和活跃的基因调控元件,并有可能从cfDNA WGS中发现其他未知的调控元件。

cfDNA断裂热点可以揭示早期癌症中潜在的基因调控畸变

作者接下来试图探索热点地区的cfDNA片段动态是否能反映早期癌症中基因调控元件的畸变。研究者收集了公开的低覆盖率cfDNA WGS数据(~1X/样本),包括来自90位早期肝细胞癌患者和同一研究的32位健康人。对前10,000个最易变的热点进行的无监督层次聚类显示了早期HCC和健康人之间明显的片段动态(图3 a)。作者在早期癌症中发现了cfDNA片段热点处的片段模式的全局畸变,它汇集了主要来自外周免疫细胞和可能来自肿瘤组织的小部分信号。这些热点地区的畸变与调控元素的改变和与癌症的发生有关的基因高度相关。

图3 早期肝癌的热点区域cfDNA片段模式的畸变

作者将明显分化的片段热点(FDR<0.01)分成两组:I类(癌症中低片段化)和II类(癌症中高片段化)(图3 b)。作者发现与I类热点相关的基因在”细胞粘附”相关的GO BPs中富集。例如,GO:0098742中的上皮细胞粘附分子(EpCAM)基因长期以来被认为是HCC癌症干细胞的标志。与I类热点相关的基因在”半胱氨酸内肽酶”、”细胞凋亡”和”嘌呤生物合成”相关的GO BPs中相对富集,这些基因在以往的研究中都与癌症的进展和侵袭有关。作者还发现BORIS/CTCFL在I类热点(癌症中低片段化)的motif富集,而不是在II类热点(癌症中高片段化)(图3 d),这表明与三维染色质组织的变化有潜在联系。

cfDNA片段热点用于检测和定位多种早期癌症

接下来,为了测试利用cfDNA片段热点诊断早期癌症的效果。研究者从上述同一研究中收集了67名慢性HBV感染患者和36名HBV相关的肝硬化患者的额外cfDNA WGS数据集。在最易变的热点处进行的无监督层次聚类显示了早期HCC、HBV、肝硬化和健康对照组之间片段模式的明显动态变化。作者采用十倍交叉验证,仅在训练数据集中的样本中识别热点,以避免信息泄漏到测试数据集中。对于HCC和健康人之间的比较,训练模型获得了91%的灵敏度和100%的特异性(GC偏差校正后,96%的灵敏度和100%的特异性)。对于HCC和所有其他非癌症对照之间的比较,模型在100%的特异性下获得了83%的灵敏度。这两种比较都显示出比其他方法更高的性能。

图4 多个早期癌症的检测和分类鉴定

作者进一步将研究从早期HCC扩展到其他多种癌症类型。我们在同一研究中收集了公开的低覆盖率cfDNA WGS数据(~1X/样本),来自7种不同癌症的208名患者(88%处于I-III期,结肠癌、乳腺癌、肺癌、胃癌、胆管癌、卵巢癌和胰腺癌)和215名健康对照者。作者发现在七个不同类型的癌症和健康状况中,在t-SNE可视化和无监督层次聚类中,z-score转换后的IFS信号在最易破碎的热点中显示出明显的癌症特异性片段模式(图4 a,b)。

通过十倍交叉验证,线性SVM模型在不同阶段表现出一致的高性能(图4 c)。在不同的癌症类型中,模型在100%的特异性下达到了48%到95%的敏感性。在100%的特异性下,该模型在结直肠癌中达到了95%的灵敏度,在乳腺癌中达到了93%的灵敏度,在胃癌中达到了90%的灵敏度,这些都是其他液体活检方法在同一数据集中难以检测到的高特异性水平。该方法确实在不同肿瘤成分的样本中均表现出稳定的准确性。作者的模型在测试数据集中仍然表现出很高的性能(在早期肝癌中87.5%的敏感性和80%的特异性,在早期乳腺癌中56%的敏感性)。

接下来,作者测试了细微尺度的片段模式来推断癌症样本来源的效果。在上述由机器学习算法确定的癌症阳性样本中,在没有任何患者临床信息的情况下,模型可以对五种不同的癌症类型中,对平均80%的患者癌症来源定位到一个或两个解剖部位。在六种不同的癌症类型中整体准确率达到76%。此外,研究者能够将这些患者中62%的阳性检测来源定位到单一器官(图4 d)。预测准确率在不同的肿瘤类型中有所不同,从胰腺癌的67%(95%CI:36-97%)到乳腺癌的97%(95%CI:92-100%)。

作者对公开的cfDNA WGS数据集的验证研究表明,cfDNA片段热点的从分布特征是一种很有前途的新方法,可以用于多种早期癌症的诊断和定位。

总结

本文作者开发了一种名为CRAG的计算方法,通过对片段覆盖率和片段大小信息的加权,从头识别cfDNA片段热点。精细尺度的cfDNA片段热点的分布规律对于揭示病理条件下的未知基因调控畸变至关重要。

与已知调控元件(如TSS和TFBS)的片段研究相比,本文提出的de novo方法显示出几个优势。首先,de novo方法可以扩大信号的范围。第二,在早期癌症患者的肿瘤和免疫细胞中,利用肿瘤和免疫细胞中的综合调控元件图谱来研究早期癌症仍然具有挑战性。最后,很多远端调控元件不包含定义明确的motif或TFBS。此外,许多疾病,特别是早期癌症直接从序列中描述motif和TFBS不能代表早期癌症中调控元件的整体畸变特征。

推荐阅读