Science | 基于机器学习的遗传变异外显率

通过数据驱动的方式,整合大规模电子健康记录(HER)和遗传数据,基于机器学习(Machine Learning,ML)方法精准评估外显率(即携带变异的个体患疾病的概率),为准确风险评估和临床决策提供了可扩展的解决方案。

 

机器学习外显率具有两个显著特性,使其有别于传统外显率。

 

  • 首先,它通过将每个个体特有的临床因素纳入评估范围,捕捉了变异外显率的临床背景,反映了这些因素对疾病风险的影响;这与不考虑个体临床特征的传统方法形成鲜明对比。

     

  • 其次,机器学习外显率利用连续的疾病评分,而非传统的二元病例对照分类,能够更精确、定量地估算疾病风险。

 

这两个特性共同克服了传统外显率估算方法的关键局限,使机器学习外显率成为理解变异与临床结局之间复杂关系的宝贵工具。

ML- based penetrance estimation of genetic variants.

 

研究背景

 

最新分析研究表明,一些此前被归类为致病性(P)的变异,其外显率较低或具有波动性,而意义未明变异(VUS)在临床解读方面仍存在挑战。

 

为应对这些挑战,研究者开发了一种基于机器学习的外显率估算方法,该方法利用医疗系统中广泛可用的常规临床实验室检测数据,并将其与遗传数据相结合

 

研究方法

 

利用 1,347,298 名具有电子健康记录数据的参与者,为 10 种遗传性疾病构建了机器学习模型,这些疾病包括致心律失常性右室心肌病(ARVC)、家族性乳腺癌(FBC)、家族性高胆固醇血症(FH)、肥厚型心肌病(HCM)、成人低磷酸酯酶症(HPP)、长 QT 综合征(LQTS)、林奇综合征(LS)、单基因糖尿病(MD)、多囊肾病(PKD)和血管性血友病(VWD)。

 

Identification of clinically diagnosed cases and controls for 10 diseases.

 

该研究包含五个阶段:

  1. 从 ClinGen 数据库中筛选经专家评审、具有可表型疾病且呈常染色体显性遗传的疾病易感基因。

  2. 从 ClinVar 数据库中获取目标基因中的罕见致病性(P)、良性(B)、意义未明(VUS)和功能缺失(LoF)变异。

  3. 在通过质量控制(QC)的携带者外显子组中检测变异。

  4. 利用来自Mount Sinai Data Warehouse (MSDW)和 BioMe ML 队列的经质量控制的电子健康记录,确定临床诊断的病例组和对照组,分别用于训练和测试机器学习模型,然后将这些模型应用于 BioMe 外显子组队列,生成概率(疾病评分,范围为 0 至 1)。

  5. 利用疾病评分和携带者状态,通过广义线性混合效应模型(GLMM)计算机器学习外显率,并将其与基于病例标签携带者比例计算的传统二元诊断外显率进行比较。

Schematic of study design and workflow.

 

随后,将这些模型应用于一个独立的外显子组测序队列。借助这些模型生成的疾病概率评分,计算了31 个常染色体显性疾病易感基因中 1,648 个罕见变异的机器学习外显率,涵盖致病性(P)、良性(B)、意义未明(VUS)以及此前未知的功能缺失(LoF)变异。

 

研究结果

 

 机器学习外显率验证

致病性变异和功能缺失变异的机器学习外显率最高,意义未明变异次之,良性变异最低。

 

  1. 致病性变异的中位机器学习外显率为 0.52,高于良性变异的 0.28。

  2. 未携带研究集中任何变异的个体,其基线疾病评分为 0.26。

  3. 55% 的致病性变异的机器学习外显率> 0.5,而良性变异中这一比例仅为 4.1%。

     

疾病实例:

  • 在家族性高胆固醇血症相关的 LDLR 基因中,致病性变异的中位机器学习外显率为 0.88,良性变异为 0.17。

  • 在家族性乳腺癌相关的 BRCA1 基因中,致病性变异的中位机器学习外显率为 0.57,良性变异为 0.30。

Characteristics of participants.

 

Validation of ML penetrance of variants of different classes, AFs, and BRCA1 in vitro functional effects scores.

 

  机器学习外显率与疾病相关的临床结局分析

  1. 机器学习外显率与疾病相关的临床结局存在相关性;

  2. 对于所有疾病,随着变异机器学习外显率的升高,携带者临床结局的比值比也随之增大。

     

疾病实例:

  • 在携带多囊肾病变异的个体中,机器学习外显率每增加 0.1,慢性肾病(CKD)的比值比为 1.11,终末期肾病(ESRD)的比值比为 1.09,继发性高血压的比值比为 1.05,其他结局也呈现类似趋势。

  • 对于家族性高胆固醇血症,机器学习外显率每增加 0.1,携带者发生心肌梗死的比值比为 1.02。

  • 对于肥厚型心肌病变异携带者,机器学习外显率每增加 0.1,发生心力衰竭的比值比为 1.02,发生心律失常的比值比为 1.01。

  • 对于 1,265 个错义变异,机器学习外显率每增加 1 个单位,AlphaMissense 评分增加 0.083。

  • MSH6 基因中的一个意义未明变异(A,p.Ala500Thr),其机器学习外显率较高(0.87)但 AlphaMissense 评分较低(0.067),携带该变异的 3 名个体的血红蛋白水平和体重显著降低,这与林奇综合征的亚临床表现相符。

     

  机器学习外显率的计算机模拟与实验关联

疾病实例:

  • 在具有机器学习外显率数据的 25 个 BRCA1 变异(4 个良性变异、16 个意义未明变异和 5 个致病性变异)中,机器学习外显率每增加 0.01,功能评分降低 0.027,这一结果凸显了机器学习外显率在分子和机体层面衡量表型异常的能力。

  • KCNQ1 和 LDLR 基因的其他功能数据:对于 9 个 KCNQ1 错义变异,机器学习外显率从 0 增加到 1 时,失活时间常数增加 303 毫秒。

  • 对于 9 个 LDLR 错义变异,机器学习外显率与 LDL 摄取呈负相关,这表明外显率越高的变异,其受体功能降低越显著。

     

  机器学习外线率与诊断外显率比较分析

机器学习外显率更精确、定量,且与诊断外显率存在关联性。

 

  1. 诊断外显率分布高度离散,在 0 和 1 处出现许多极值,而中间值较少;而机器学习外显率的分布则更具连续性。

  2. 此外,在诊断外显率分析中,143 个变异中有 28 个(20%)因部分携带者不符合病例或对照的临床诊断标准而被排除;与之不同的是,在机器学习外显率分析中,每个携带者都能获得疾病评分,从而增加了可分析变异的数量。

  3. 诊断外显率从 0 增加到 1 时,机器学习外显率增加 0.22。

     

疾病实例:

  • 多个家族性高胆固醇血症变异的机器学习外显率与文献中报道的诊断外显率估算结果一致。

  • 发现4 个 LDLR 致病性变异,它们的机器学习外显率极高(0.97-1.0),其诊断外显率也同样很高(0.80-1.0);另一研究中,7 个 LDLR 意义未明变异的机器学习外显率较低(0.064-0.39),其诊断外显率也相应较低(0-0.17)。

Comparison of ML penetrance with conventional binary DX penetrance.

 

Performance metrics of the ML model for the detection of diseases in the internal validation and holdout cohorts.

 

  利用机器学习外显率解析意义未明变异

  1. 意义未明变异的机器学习外显率取值范围广泛,中位值为 0.46,高于良性变异,低于致病性变异。

  2. 在广义线性混合效应模型分析中,P<0.05 的意义未明变异子集里,有 66 个变异的机器学习外显率较高(≥0.75),148 个变异的机器学习外显率较低(≤0.25)。

     

疾病实例:

  • 两名携带多囊肾病高机器学习外显率意义未明变异的个体,其肾小球滤过率、血红蛋白和总胆固醇的中位值低于良性变异携带者(均有),且这些肾病标志物的纵向数值随时间推移也低于良性变异携带者(均有)。相反,两名携带多囊肾病低机器学习外显率意义未明变异的个体,其上述各项指标的中位值和纵向数值与良性变异携带者相比均无变化(均 P>0.05),且未被诊断出肾病。

  • 四名携带两个长 QT 综合征高机器学习外显率意义未明变异的个体,这两个变异分别为 NM_000218.3 (KCNQ1):(p.Pro99Gln)和 NM_000218.3 (KCNQ1):(p.Gly646Ser)。随着时间推移,这些个体的校正 QT 间期(QTc)延长,心房率和心室率降低(均有)。其中三名携带者被反复诊断为心悸、晕厥和心动过缓。相反,15 名携带五个长 QT 综合征低机器学习外显率意义未明变异的个体,包括 NM_000218.3 (KCNQ1):c.136G>A(p.Ala46Thr),其校正 QT 间期、心房率和心室率与良性变异携带者相比无明显差异(均 P>0.05),且无心脏疾病记录。

  • 四名携带两个肥厚型心肌病高机器学习外显率意义未明变异的个体,这两个变异分别为 NM_000363.5 (TNNI3):c.307C>T(p.Arg103Cys)和 NM_000256.3 (MYBPC3):c.3669A>T(p.Glu1223Asp)。随着时间推移,这些个体在多项超声心动图和心电图测量中表现出室间隔厚度增加、左心室舒张末期和收缩末期容积减少、PR 间期延长以及 R 波和 T 波电轴左偏,与良性变异携带者相比存在显著差异(均 P<0.05)。其中三名携带者多次因呼吸困难、劳力性呼吸困难、胸痛和疲劳就医;一人还患有房室传导阻滞,另一人则反复发生中风。相反,两名携带肥厚型心肌病低机器学习外显率意义未明变异的个体,这两个变异分别为 NM_000256.3 (MYBPC3):c.3661C>G(p.Leu1221Val)和 NM_000256.3 (MYBPC3):c.2683C>T(p.Arg895Cys),其超声心动图和心电图参数的纵向变化与良性变异携带者相比无差异(均有),且无心脏疾病诊断记录。

Clinical trajectories of VUS and LoF variants with high and low ML penetrance.

 

 利用机器学习外显率表征功能缺失变异

  1. 功能缺失变异的中位机器学习外显率为 0.48,高于良性变异(P=5.7×10⁻⁸),与致病性变异的中位机器学习外显率相近(P=0.35)。

  2. 功能缺失变异的中位机器学习外显率也高于同义变异对照组的 0.33,按疾病分层后结果依然如此。

  3. 在 228 个功能缺失变异中,48 个(21%)的机器学习外显率较高(≥0.75),41 个(18%)的机器学习外显率较低(≤0.25)。

     

疾病实例:

  • 发现了三名携带 LDLR 基因中两个家族性高胆固醇血症高机器学习外显率剪接供体和受体变异的个体,其中一个变异为 NM_000527.5 (LDLR):c.190+1G>A。与良性变异携带者相比,这些个体的校正低密度脂蛋白胆固醇水平长期升高 119mg/dl,总胆固醇水平升高 117mg/dl,高密度脂蛋白胆固醇水平降低 7.5mg/dl(均有)。这三名携带者均表现出高胆固醇血症的临床特征,其中两人患有非 ST 段抬高型心肌梗死(NSTEMI),两人患有 ST 段抬高型心肌梗死(STEMI),一人患有中风,两人患有缺血性心肌病,三人因心绞痛多次就医。

  • 识别并表征了八名携带 PKD1 和 PKD2 基因高机器学习外显率功能缺失变异的个体,其中两人携带 PKD1 基因的剪接供体变异 [外显率 = 0.97],两人携带 PKD1 基因的终止密码子获得变异 [外显率 = 0.89],四人携带 PKD2 基因的移码变异 [外显率 = 0.83079019]。与良性变异携带者相比,这些个体的纵向测量数据显示肾小球滤过率显著降低 40ml/min,血红蛋白和总胆固醇水平也有所降低(均 P<0.05)。其中六名携带者被诊断为多囊肾病,一人被诊断为未明确类型的囊性肾病;在这些患者中,三人患有慢性肾病,两人患有继发性高血压,四人患有终末期肾病,两人需要透析治疗,一人接受了肾移植手术。

  • 十名携带 ALPL 基因成人低磷酸酯酶症低外显率移码变异的个体 [外显率 = 0.17],其碱性磷酸酶(ALP)、钙和磷水平随时间推移与良性变异携带者相比无变化(均 P>0.05)。在他们的病历记录中,未发现牙齿、骨骼、关节或其他与成人低磷酸酯酶症相关的临床症状。

 

研究结论

 

机器学习外显率与通过实验获得的变异功能测量结果一致,证实其生物学意义。有助于意义未明变异和此前未知功能缺失变异的评估,它能够清晰呈现临床病程 —— 携带高外显率变异的个体,其生命体征、心电图指标和疾病生物标志物会随时间发生异常改变。

 

本研究提出了一种基于机器学习的方案,能够大规模系统地评估外显率,该方案整合了基因组数据和临床表型数据。通过提供更精确的个体化疾病风险估算,机器学习外显率有望改进变异评估、指导临床决策,并推动精准医疗方法的发展。