NATURE REVIEWS 丨 肿瘤新抗原的鉴定与肿瘤个性化疫苗的开发

癌细胞的体细胞突变可以产生肿瘤特异性的新表位,这些表位可以被宿主的自身T细胞识别。由于新表位不受中央免疫耐受的干扰并且不在健康组织中表达,所以它们是开发癌症疫苗的潜在目标。对患者来说多数的癌症突变是有个体差异的,因此要充分利用个体的突变信息才可能给出个性化的治疗方案。

为了识别基因中的突变,人们开发出许多算法和机器学习工具,优先考虑那些更有可能被T细胞识别的突变,并为每个病人设计个性化的疫苗。在本篇综述中,研究人员根据抗原在临床环境中激发出的抗肿瘤免疫力效能提出了一个新的新抗原分类,将新抗原区分为守护型、抑制型和被忽略型,同时阐述了体细胞突变和新抗原预测方法。这种基于临床实践的分类将有助于将新抗原生物学与癌症的临床应用和医学特点联系起来,并使未来基于新抗原的疗法能够提供更大的临床应用价值。

突变的基因表达的产物可以作为肿瘤新抗原,当它们的多肽产物被分解时,呈现为患者主要组织相容性复合体(MHC)分子上的新表位,并被CD4+或CD8+T细胞识别。识别新表位的T细胞可以推动癌症免疫治疗的疗效,如免疫检查点阻断(ICB)和过继T细胞转移。

由于体细胞癌变往往是基因随机突变并且患者之间各不相同。每个癌症患者都有自身独特的突变图谱,并在他们的癌细胞上呈现出独特的新表位-MHC复合体(称为‘新抗基因组’)的组成。虽然人们已经找到了一些共有的新抗原(表1),但癌症突变的更广泛的临床应用需要一种真正的个体化医疗方法,而个体化医疗存在着多方面的挑战。

表1 源自共享突变的新抗原

个体化癌症疫苗的工程(图1)最初需要通过比较来自患者肿瘤和健康组织的NGS测序数据来识别肿瘤特异的蛋白质编码基因的非同义突变。只有部分突变是在患者的白细胞抗原分子的背景下出现的,并且不是每个突变都会引起免疫反应。自发产生的T细胞识别的新表位只反映了单个肿瘤中1-2%的突变。此外,在T细胞介导的肿瘤细胞杀伤和抗肿瘤效果方面,并不是所有的新表位都具有相同的效果。

图1 新抗原呈递和激活T淋巴细胞的机制

新抗原的基本免疫机制

新抗原特异性T细胞免疫遵循T细胞启动、激活和效应功能的基本原则,这涉及到在两个区域的发生机制,即在肿瘤和淋巴组织中(图2)。

图2 新抗原介导的肿瘤控制机制

新抗原的呈递

与任何其他内源性细胞蛋白一样,在癌细胞中表达的新抗原经历蛋白酶体降解为较小的多肽。这些多肽在内质网中被加工,并被装载到MHC I类(MHC-I)分子上。由此产生的多肽-MHC-I复合体,包括那些含有新表位的复合体,呈现在癌细胞表面,供CD8+T细胞识别。

肿瘤细胞可以结构性地表达MHC-II分子,也可以在干扰素γ的诱导下表达。MHC-II分子优先呈现来自外源蛋白的多肽或来自内源蛋白的多肽,这些多肽进入内分泌室和内细胞室。当MHC-I和MHC-II各自的新抗原进入两条加工途径时,并且当患者具有MHC-I和MHC-II等位基因时,MHC-I和MHC-II都可以呈现相同的突变,该等位基因能够以足够的亲和力使各自的突变多肽复杂化。

初始T细胞的启动几乎完全发生在淋巴结(LN)中,通过高度专门化的LN驻留DCs实现。这些APC通过从肿瘤组织的淋巴管引流的细胞外液中采集可溶的新抗原,或通过主动从已在周围肿瘤组织中吸收相应新抗原的迁移性APC中转移来获得新抗原(图2)。DC还能够通过“交叉呈递”将内吞的抗原送入胞浆,以降解蛋白酶体并呈递到MHC-I分子上,实现CD8+T细胞的启动和刺激。

新抗原特异性T细胞反应的启动

新抗原特异性T细胞的启动、激活、扩增和随后的命运受到微调机制的严格控制,并受到一些参数的影响,如APC上多肽-MHC复合体的密度和稳定性、抗原特异性T细胞的前体频率和亲和力以及共刺激信号的存在。原始T细胞库是由胸腺发育过程中建立的中枢免疫耐受形成的,包括消除识别来自生殖系编码自身抗原的MHC-I和MHC-II表位的高亲和力T细胞。

由于新表位是非自我的,并且是后天产生出来的,它们的识别不受这一机制的影响。初始T细胞的启动需要高水平的多肽-MHC复合体以及共刺激。在肿瘤中高表达并提供与MHC-I或MHC-II足够高亲和力的新表位的新抗原,更有可能有效地交叉呈递内吞抗原和启动初始T细胞。如果表达低于临界水平,新抗原既不能诱导T细胞免疫,也不能诱导免疫耐受。

TCR多样化和TCR衰减

TCR通过与伸出MHC凹槽的多肽的侧链上的几个接触位点相互作用而与多肽-MHC复合体结合。相同的新表位-MHC复合体可以与具有不同TCR的T细胞结合,这些TCR可能由分子上不同的α-链和β-链组成(图3)。对于与来自自身抗原的MHC配体有较大不同的新表位,TCR多样性就会更高。

鉴于功能性TCR-肽-MHC相互作用的亲和力低,单个TCR能够结合各种肽-MHC复合体,包括不一定具有序列同源性且结构不同的不同表位。由于这种TCR的退化,突变的多肽可能被诸如共生细菌或微生物病原体表面的抗原激发出T细胞的异源免疫反应(图3)。

图3 TCR的多样性和衰减

新抗原驱动的免疫效应机制

当在共刺激条件下遇到抗原时,初始的CD8+和CD4+T细胞被激活,通过反复的细胞分裂周期而扩增,离开LN并分化为表达程序性细胞死亡1(PD1)的效应器和记忆性T细胞,能够渗透到肿瘤中。在良好的肿瘤微环境(TME)存在下,被激活的新抗原特异性T细胞通过识别肿瘤内APC和肿瘤细胞上的抗原而发挥其效应功能,并可能间接或直接控制肿瘤。癌症疫苗的最终目标是通过启动新的新抗原特异性T细胞或激活预先形成的T细胞来重新启动癌症免疫循环,从而促进持续的适应性抗肿瘤免疫反应,直到肿瘤细胞被完全消除。

在治疗肿瘤的过程中,CD4+和CD8+T细胞相互协作。CD8+T细胞直接杀伤癌细胞,而新抗原特异性的CD4+T细胞具有多种作用,可能促进TME的深层炎症重塑。CD4+T细胞对表达MHC-II的肿瘤细胞也可能表现出直接的细胞毒作用。CD8+和CD4+T细胞在识别同种抗原后分泌干扰素γ,诱导肿瘤细胞和APC上MHC-I和MHC-II递呈上调,从而进一步增强对新抗原的识别。炎症支持新抗原特异性CD8+T细胞的细胞毒活性。肿瘤细胞的杀伤和肿瘤抗原的释放可能导致抗原扩散,并进一步刺激和扩大记忆的CD4+和CD8+T细胞。这一序列的重复被称为癌症免疫周期,被许多免疫抑制机制所抵消,这些机制是为了防止自身免疫而进化出来的。

免疫监视、免疫逃逸和免疫编辑

肿瘤的遗传进化是由选择具有适应优势的克隆推动的。免疫监视和肿瘤进展之间的动态相互作用导致不同克隆性成分的原发和转移病变(图4)。T细胞免疫逃避发生在肿瘤的自然进化过程中以及治疗过程中,肿瘤逃避免疫监视的机制有多种。

图4 克隆性对新抗原识别的影响

肿瘤可能通过上调PD1配体1(PDL1)、转化生长因子-β(转化生长因子-β)等分子的表达或通过促进Treg细胞的扩张来产生免疫抑制TME。此外,被功能性新抗原特异性T细胞识别的肿瘤克隆可能会受到免疫编辑的影响。新抗原丢失变异的选择似乎经常发生在治疗初期患者的免疫浸润性肿瘤中,但很少发生在免疫细胞浸润性不足的肿瘤中。在疫苗中结合多个新抗原,而不是依赖单一抗原,可以减少因抗原丢失而逃逸的风险。在转移性疾病中,肿瘤免疫逃逸的风险更高。每一个转移性病灶都可以被视为一个独立的岛,它有独特的免疫微环境、免疫逃逸策略、进化动力学和新抗原(图4)。

新抗原的分类

新抗原的一种分类方法是根据产生变化表位并确定分子特征的体细胞突变类型进行类型划分(方框1)。临床研究中研究最多的突变类型是编码区的单核苷酸变异(SNV)。未来的一个重要领域是开发新抗原的发现工具,这些新抗原是由癌症特异性INDELs、融合基因和剪接变异体产生的,这些新抗原与自身抗原的相似性低于SNV衍生的新抗原。

方框1 基于分子特征的新抗原分类

研究人员提出了一种新抗原的正交分类(图5;表2),这可能有助于识别表达抗肿瘤免疫的相关新抗原。研究人员认为,突变的效用可能会因临床情况而不同,需要考虑可能驱动新抗原特异性免疫反应形成的机制和癌症生命周期效应的多样性。

图5 基于治疗背景下的新抗原分类

下面的分类根据新抗原获得相关性的临床背景来区分新抗原。研究人员称之为基于临床背景的分类,以区别于通常的基于分子结构的分类,因为它需要解剖特殊的疾病和治疗背景。该分类旨在提供一个指导新抗原发现和表征研究的框架,并帮助组织和分析新的数据集,以弥补研究人员对新抗原的认识并开发出定制化的方案,从疫苗设计和其他方面确定新抗原候选特征。

表2 按潜在的效能对新抗原进行分类

守护型新抗原

肿瘤要接受T细胞的监测。因此,在未接受治疗的癌症患者中,可以发现自发产生的新抗原特异性的CD4+和CD8+T细胞。这些新抗原可能通过在肿瘤临床表现出来之前介导早期的肿瘤排斥反应而起到保护作用,它们可以减缓肿瘤的生长,抑制转移扩散,并防止原发肿瘤手术切除后的复发。

守护型新抗原的特点是它们在肿瘤中的表达足以在缺乏免疫治疗的情况下驱动临床相关的抗肿瘤免疫。守护型新抗原可能有两种。第一类是强抗原性新抗原,在肿瘤细胞中强势表达,并形成具有非常高亲和力的MHC结合和稳定性的新表位(图5);第二种守卫的新抗原类型是由预先建立的、交叉反应的记忆T细胞识别的。守护型新抗原控制着疾病的自然进程,并且关乎免疫治疗无效的患者的良好预后。

抑制型新抗原

研究人员将被ICB重新激活的T细胞识别的目标命名为抑制型新抗原。尽管受抑制的新抗原能够激发T细胞反应,但它们的抗原性弱于守护型新抗原,并且被激发的T细胞不善于防疫或没有足够的数量扩增来抑制疾病的进展。被抑制的新抗原启动的T细胞渗入肿瘤,并识别其针对癌细胞和APC的靶点,但被肿瘤生长速度超过,并被已建立的TME免疫抑制。抗原致敏的迁移性DC需要几天时间才能从肿瘤部位到达LN驻留的DC。

由于淋巴组织中新生T细胞的启动需要高水平的新抗原呈现,变异肽需要在肿瘤中强势表达,发挥高亲和力的MHC结合,并建立稳定的肽-MHC复合物,以产生抑制的新抗原(图5B)。与根据预后影响确定的守护性新抗原不同,抑制性新抗原是根据其对免疫疗法(如ICB)所带来的临床益处的预测能力来定义的(表2)。

被忽略的新抗原

在给定的人类癌症中,只有很小一部分突变可以被自发发生的T细胞反应所识别,这是保护和抑制新抗原的共同特征。在小鼠身上进行的系统免疫原性研究表明,在小鼠肿的癌症突变中,有15%-40%在用作疫苗抗原时能诱导强大的新生T细胞反应(比CD8+反应多)并导致肿瘤缩小并排斥、抗原扩散和免疫抑制环境的改变。

研究人员建议将这些突变的基因产物称为“被忽略的新抗原”,尽管这些突变基因产物存在于MHC分子上,但需要接种疫苗才能诱导临床相关的T细胞反应。研究人员假设被忽略的新抗原的特征是中等水平的新表位呈现,低于初始T细胞的启动阈值,但高于记忆T细胞识别的水平(图5)。守护型和限制性的候选新抗原是个性化疫苗研发中值得高度关注的目标,而丰富的被忽视的新抗原则是新抗原疫苗或个性化治疗的额外来源。

新候选抗原的预测

免疫反应的最基本前提是由体细胞突变产生的异常基因产物被转录、翻译、加工并呈现在MHC分子上。因此,验证患者中MHC等位基因的表达和亲和力预测是新抗原预测流程中的两个关键前提条件。除此之外,其他潜在相关的生物学特征被应用到算法中,以对新候选抗原进行排序(表3)。

表3 假设驱动型新抗原特征解析和预测算法

图6 小鼠模型实验情境下的肿瘤排斥抗原

转录本表达

检测到的多肽-MHC复合体的密度与蛋白质水平和转录本表达有关。表达来自高丰度转录本的新抗原的肿瘤细胞克隆在ICB治疗下被有效清除,候选新抗原下调表达是一种免疫逃逸策略。此外,转录丰度可以补偿突变MHC降低的结合亲和力。

总之,数据显示高转录表达与自发的功能性T细胞反应的可能性更高相关,因此与预测受抑制的新抗原高度相关。因此,各种研究使用基因表达来对候选新抗原进行排序,可以通过考虑转录表达较低的突变来扩大潜在靶点的范围。为了量化突变和其野生型基因型的表达,在从肿瘤活检样本提取的RNA的NGS测序数据进行定量分析。

MHC的结合、稳定性和细胞表面呈递

突变多肽与患者至少一种MHC等位基因结合的能力是T细胞识别的最低要求。抗原特异性的CD4+和CD8+T细胞的协作对于有效的抗肿瘤免疫至关重要。已发表的预测MHC结合亲和力的计算工具是根据湿实验室亲和力数据和质谱检测到的洗脱配体进行训练的。最近的基准研究使用受试者工作特征(ROC)曲线分析作为性能指标,以评估人类MHC-I结合和呈现或在MICE中的T细胞反应的预测工具。

在这些研究中,NetMHCpan和MHCflurry的ROC最好。MixMHCpred预测给定肽序列出现在细胞表面的可能性从而获得更高的ROC曲线。所有的工具在MHC多肽信息完善时表现都足够好。当缺乏罕见MHC等位基因的配基数据时,NetMHCpan等工具可以利用MHC序列与MHC等位基因的同源性来推断潜在的配体偏好作出预测。

与自身不同而与病原体相关表位相似

与野生型序列的差异以及更广泛地与自身蛋白组的不同,增加了T细胞组合中存在高亲和力T细胞的可能性。利用异质性假说的一种方法是使用局部比对工具(BLAST)对非突变蛋白质组进行比对得到的比对分数来替代TCR结合能。另一种方法对突变的和相应的野生型表位使用核相似性测量。据报道,这些指标可以预测来自SNV的新表位,对于INDELs或融合基因更是如此。

TCR识别

解析TCR与多肽-MHC复合体相互作用的方法是基于预测TCR的氨基酸侧链将面对MHC结合肽或与TCR结合的可能性更高的多肽-MHC复合体的稳定性。将TCR的氨基酸序列用于人工神经网络以预测给定TCR与多肽-MHC复合体的结合的方法仍处于探索阶段中,它可以回避结构建模步骤。另一种方法是可以根据TCR序列预测TCR最有可能的同源肽-MHC靶标。然而,这些方法还不成熟,因为受限于目前的算法, MHC-多肽-TCR组合空间的多样性巨大,而现有的实验训练数据不足以训练算法。

突变克隆性与不可分割性

使用PyClone或SciClone的分析患者的变异等位基因频率,可以评估癌症样本的克隆架构。大多数驱动基因突变通常出现在肿瘤进化的早期,很有可能是克隆性的。驱动突变可以提高癌细胞适应性。COSMIC和DriverDB等数据库列出了已知的和经过功能验证的驱动基因。虽然实验验证的免疫原性驱动基因突变极少,但已经开发出的计算方法可以筛选出新型驱动基因突变。

持家基因产物杂合性缺失

基因通常以两个拷贝的形式存在于基因组中。如果一个必要的基因受到LOH的影响,并从剩余的等位基因产生新的抗原,肿瘤就不能通过新抗原的丢失而逃脱免疫杀伤,因为剩余的等位基因是肿瘤细胞生存所必需的。因此,发生杂合性缺失的必需基因突变可能是新抗原疫苗接种的特别好的靶点。根据深度测序和微阵列数据分析能可靠地预测编码区中的LOH。基因敲除和基因沉默研究已经提供了大约1,600-2,500个候选基因,这些基因似乎对细胞生存是必要的,并可能有助于确定候选新抗原的优先排序。

基于深度学习的方法

人工神经网络的灵感来源于生物神经网络。为了预测表位与MHC分子的结合,探索了基于MHC结合分析数据训练的人工神经网络。深度学习模型在图像分析和语音识别方面取得了重大突破,目前正在探索免疫原性预测。深度网络使用多层体系结构来适应训练数据集中的复杂关系。它们有可能从肽段序列中发现新的模式特征。这样的网络已经被用于MHC-I和MHC-II的结合和配体预测。

 

表4 基于神经网络和深度学习的新抗原预测算法

尽管深度学习算法在一定程度上显示出了良好的效果,但在推广应用之前还需要进一步的改进。一个制约瓶颈是缺乏具有高质量T细胞反应数据的标准化的训练数据集,另外免疫原性和抗原性的数据集之间也有差异。另一个障碍是,数据集必须得到很好的管理和平衡,具有相同数量的阳性和阴性训练样本,以便网络学习正确的模式。此外,深度学习的结果往往难以解释,使得用户很难推断出关键的生物学特征。

面临的挑战

样本自身的复杂性

肿瘤的抗原状态可能随着时间推移变化。在接近计划接种疫苗的时间点获得的转移性病变的活检样本则反映了新抗原的最新状态。有证据表明,原发肿瘤中表达的守护型新抗原在转移病灶中丢失。而被忽略的新抗原不受选择性压力的影响,即使在晚期疾病中,也可能在不同的病变中更均匀地表达和保存。

另外肿瘤具有高度异质性,同一肿瘤病灶的多次活检导致不同的分子图谱,并且在患者的一个转移病灶中候选新抗原发生变化。因此,合成的复合新抗原疫苗可能只代表患者病灶中的一小部分靶点。多区域甚至多病灶测序将需要额外的入侵性检测,在临床实践中难以实现。

生物样品的采集和存储条件可能会影响测序数据。新鲜的冷冻样本提供了最好的数据质量,但需要复杂的物流。福尔马林固定的、石蜡包埋的样本在固定过程存在测序伪影并需要计算过滤。对于患者来说,活组织检查比手术切除更方便,但可能会样本不足,甚至没有肿瘤细胞。液体活检可以分析患者血液中循环的肿瘤DNA(ctDNA)而且便于收集,但是血浆DNA样本中突变的等位基因频率往往很低,需要进一步提高技术才能通过液体活组织检查对癌症突变进行稳定且灵敏的检测。

突变检测

突变检测过程首先要对测序数据进行过滤,随后是与参考基因组的序列比对。随后的突变检测必须准确地区分体细胞变异与测序错误、样本制备人工制品和种系突变。现有的软件工具解决了突变检测的关键限制。常用工具(表5)在检测不同的突变类别(如SNV或INDELs)、处理肿瘤异质性的同时保持可靠的准确度以及在可接受的运行时间内交付的能力各不相同。目前还没有单一的完美解决方案,通常的方法是保留不同工具的变异检测交集。SNV的检测在灵敏度和特异度都很高,而INDELs和融合基因的检测则表现一般。

表5 变异检测工具一览

数据集可用性和质量

设置新抗原预测算法的参数和训练它们依赖于良好的数据集。由于缺乏统一的测序、突变检测、新抗原候选者优先排序和免疫原性测试协议,数据整合和可比性受到影响。免疫原性数据集往往是不平衡的,因为测试的首选新抗原候选者是那些最可能具有免疫原性的候选者,而指导候选者选择的规则在不同的研究中是不同的。对于许多这样的数据集,最初没有明确和一致的规范。

疫苗设计

疫苗设计有两个组成部分:疫苗技术平台的选择和产出一组候选新表位。来自突变的MHC呈递表位的分子性质允许代表新表位候选的多个短序列的组合。疫苗技术仍处于实验阶段,各种形式的个体化和现成癌症疫苗的临床研究正在探索中。对于每种疫苗形式,需要单独确定最佳条件–例如佐剂和疫苗接种时间表。疫苗技术将在很大程度上影响候选新表位是否以诱导免疫反应的方式传递,这将使模型学习训练过程复杂化。

个性化癌症疫苗的制造需要多个同时的、高度并行的生产管线,每个管线代表一个人的一种药物产品。个性化疫苗制造将需要大规模生产定制化产品的整体解决方案。这可能需要实现生产流程的完全数字化,以及由计算能力、连通性、人机交互、机器人技术和创新3D技术的进步促进的自主云控制生产工厂,从而能够建设大规模的微型并行生产线。

临床应用的挑战

首先,从以药物为中心到以患者为中心的药物研发范式转变需要监管部门批准的不是单一化合物升级生产,而是从样本采集到疫苗设计和生产的全过程。第二是需要合适的临床环境。有效控制较大的肿瘤负荷可能需要联合免疫疗法。

展望

NGS技术和基于质谱学的MHC配体分析技术的进步将以更高的分辨率和更低的噪音支持新抗原研究。技术进步将挖掘出新的抗原类别,例如,来自基因组的非编码区和‘暗物质’区域以及来自非规范翻译的新抗原类别。尽管人们对T细胞表位中锚定残基和面向TCR残基的认识不断加深,但连接新抗原和TCR图谱数据集的潜力尚待开发。新的预测工具和研究结合了TCR序列,并对突变的多肽-MHC复合体与TCR的相互作用进行了建模。对TCR及其同源新表位之间互作的结构分析将对突变特异性T细胞识别的结构依赖机制提供更深入的见解,而这些机制无法从序列中推断出来。新抗原的复杂性需要通过人工智能的应用程序和计算能力的提高来解决。

未来需要将实验设计、准确的计算流程和临床信息相结合产出标准化数据集才能为肿瘤个性化疫苗开发打下坚实基础。

推荐阅读