20、人工智能技术在新兴病原体表位映射疫苗和诊断设计中的应用

人工智能技术在新兴病原体表位映射疫苗和诊断设计中的应用

1. 引言

自首批疫苗问世以来,医疗系统已开发出一种技术,通过激发人体对特定病原体的先天免疫力,来对抗病原体。传统疫苗通常使用活的或减毒的病原体整体或其亚单位制备,这些物质会被人体识别为外来物,从而引发细胞和体液免疫反应。然而,传统疫苗在当今面临一些重大缺陷。传统疫苗的研发可能需要长达15年时间,且成本高昂,还存在引发不良反应、疾病甚至死亡的风险。

因此,基于基因组学和蛋白质组学领域的免疫信息学技术,表位疫苗应运而生。表位疫苗具有预防和治疗双重功效,其计算方法不仅经济实惠,还能引发针对性强、持久的免疫反应,最重要的是节省时间,且更安全,不存在病原体复活的风险。表位疫苗的基本原理是,适应性免疫由淋巴细胞(B细胞和T细胞)调节,它们无法识别完整的病原体,而是通过抗体细胞表面结构(互补位)与抗原表面表位的匹配,来识别称为抗原的分子成分。抗原上有一组特定的氨基酸,即表位,能够激活受体。多表位设计的疫苗预计具有更好的抗原性和免疫反应。

早期表位疫苗开发的主要步骤在体内进行,但由于成本高、耗时长,后来开发了计算机模拟工具。这些工具涉及创建分析潜在B细胞表位和T细胞表位的算法,以及确定潜在肽与抗体的结合亲和力。这些方法依赖于人工智能技术,人工智能是计算科学的一个子领域,能在处理强大数据集时模拟决策能力,像人类思维一样学习和解读模式与答案。人工智能和机器学习为寻找能刺激特定免疫反应的疫苗表位提供了近乎完美的替代方案,有助于数据分析和预测,筛选出效果最佳、最安全且人群覆盖率最高的表位。

2. 淋巴细胞(B细胞和T细胞)

淋巴细胞是一种白细胞,负责为机体提供识别和对抗特定病原体或外来物质(如抗原表位)的能力,从而实现抗原特异性免疫。人体中有两种淋巴细胞:B细胞提供体液免疫,T细胞与细胞介导免疫相关。

2.1 B细胞

B细胞是Y形蛋白质,能通过其受体识别暴露于溶剂的抗原。B细胞受体蛋白由膜结合的免疫球蛋白组成,受刺激后,这些细胞会分裂并分泌抗体(专门的免疫球蛋白)。B细胞根据抗原的不同会产生不同影响,如中和毒素和病原体,或标记它们进行凋亡。

2.2 T细胞

T细胞主要有两种类型:辅助T细胞通过产生细胞因子激活B细胞,杀伤T细胞通过使用毒素杀死受感染细胞。T细胞表面有特定受体,能识别与主要组织相容性复合体(MHC)分子结合的呈递细胞上的抗原。T细胞可分为I类MHC分子(由CD8 T细胞亚群识别)和II类MHC分子(由CD4 T细胞亚群识别),因此有两种T细胞表位。CD8 T细胞被标记为细胞毒性T淋巴细胞(CTL),而CD4 T细胞被认为是调节性(Treg)或辅助性(Th)T细胞。T辅助细胞可放大免疫系统的反应,有三种类型:Th1通过巨噬细胞和细胞毒性杀伤T细胞引发细胞介导反应;Th2通过触发抗体提供体液免疫反应;Th17通过建立适应性免疫和先天免疫之间的联系,导致病毒和其他病原体的凋亡,并增强炎症反应。

3. 人工智能技术

以下是一些可用于表位预测的常见人工智能技术:

3.1 机器学习

机器学习方法最近备受关注,因为它们能避免在估计蛋白质 - 配体相互作用时出现易出错的计算,通常从熵变和配体溶剂化的角度进行处理。学习过程主要有两种方法:无监督学习和监督学习。监督学习使用标记数据,旨在从提供的输入预测结果;无监督学习的输入未标记,机器会自行在输入和输出数据集中找到隐藏模式。大多数药物发现、表位预测和化学信息学工具基于监督方法。

3.2 人工神经网络

这种方法用于以非线性方式参数化定量构效关系(QSAR)模型。该模型受人类大脑启发,由多层节点组成,类似于生物神经元。生物神经元有树突(接收信息)、细胞体(处理信息)和轴突(传递处理后的信息),人工神经网络(ANN)模型模仿这一过程,试图从有限的数据中得出结论。它有三个主要层:输入信息层、隐藏层和输出生成层。隐藏层数量众多,通过加权关系连接,该关系通过反向传播估计。ANN具有多种优点,如能识别输入数据中的线性和非线性模式、自我改进、处理错误数据,且基于高阶模型能解读数据集中的复杂关系,但在呈现数据前需要预处理,如肽对齐。

4. 深度学习

深度神经网络(DNNs)基于深度学习技术,是人工神经网络的扩展。它们广泛应用于非结构化高维学习,如图像识别(基于模式和推理分析数据)和自然语言处理(计算机像人类一样进行语音识别)。在特定制药领域,如预测生物活性、毒性和吸收、分布、代谢、排泄和毒性(ADMET)特性方面,DNN表现优于其他机器学习方法。DNN由多层神经元组成,以实现数据的高度抽象,旨在减少过拟合问题,还包含特征提取和降维机制。卷积神经网络(CNNs)通过3D - CNN方法确定蛋白质 - 配体相互作用的分数,将蛋白质可视化为3D图像。循环神经网络(RNNs)也用于预测,蛋白质结构预测也是DNN的主要应用之一。

4.1 基于自动编码器的方法

自动编码器是一种用于从无监督方法中提取特征的神经网络模型。它是前馈网络,输入和输出相同。由编码器、解码器和距离函数(代码)三个组件组成。编码器将高维输入压缩成低维代码,解码器通过学习重建原始输入。设置瓶颈是为了让网络学习而不是简单地记忆输入值。距离函数测量处理后的输出与原始输入之间的偏差和差异。该方法用于在输出层和输入层创建相同特征,有助于将原始数据转换为用于分类和识别的内部特征。

4.2 文本挖掘

文本挖掘,也称为文本分析,是以人工智能为中心的方法,利用自然语言处理将非结构化和无组织的文本数据(如数据库和文档中的数据)转换为更合适、可管理的结构化数据,适用于进一步分析、机器学习算法或预测工作。现有的大量生物医学和制药文献及详细多样的数据集是关于药物、疾病、蛋白质、表位、抗原、毒性、遗传数据、病原体及其特征的信息库。

4.3 隐马尔可夫模型

隐马尔可夫模型是一种用于人工智能算法的统计高阶方法,能够识别数据中的复杂关系。这些算法在训练前不需要对蛋白质进行预处理,允许从一组已知和观察到的变量预测未知变量的序列。该模型可以确定任何随机过程的概率特征,最适合预测MHC分子的肽并表征具有固有结构排列的基序,被认为是预测肽与MHC分子结合的高精度方法。

4.4 支持向量机

支持向量机属于监督学习算法类别,旨在创建最佳直线将n维空间(n为特征数量)划分为不同类别,以便将新数据点添加到正确类别。最佳决策边界也称为超平面,通过选择称为支持向量的极值点来确定超平面。该方法主要有助于训练数据的分类,并且能够在小肽数据集上进行训练。

4.5 定量构效关系

这是一种数学计算方法,描述分子的化学结构性质与生物活性(如代谢、毒性、吸收和排泄)之间的关系。不同的性质导致肽的不同生物活性,通过统计方法将分子的测量活性与生物反应及其物理化学结构相关联。最常见的方法是随机森林,输入数据通常是分子描述符,用于预测分子性质。

5. 计算机模拟疫苗设计

目前,只有少数传染病有疫苗,因此迫切需要为许多致命和新兴病原体快速设计疫苗。已有多篇报告强调了计算机模拟技术在疫苗设计中的重要性,并概述了可用于疫苗设计和药物评估的人工智能和计算技术步骤。基于人工智能的模型可以在广泛的分子空间中设计新型疫苗候选物,人工智能利用算法结构探索和发现输入数据的特征,并生成自主决策以实现特定目标,还能快速检查药物靶点、找到命中和先导化合物并优化药物结构设计。

基于人工智能的方法减少了筛选大量数据的时间,提供最相关的信息。生物数据提取的步骤包括信息检索(IR)、生物信息提取(BIE)、生物知识发现(BKD)和生物命名实体识别(BNER)。

以下是一些应用实例:
- 2020年,Malone等人利用人工智能技术设计针对SARS - CoV - 2的疫苗,该疫苗具有广泛的T细胞表位,可在全球范围内使用。他们使用国家电气规范(NEC)免疫分析套件生成表位图谱,然后用蒙特卡罗模拟模型检查表位图谱的显著性水平。他们探索了约3400个病毒序列,通过序列保守性研究消除病毒蛋白质组中不太保守部分的表位热点,最后用数字孪生模拟模型模拟各种热点组合。
- 2021年,Mazzocco等人应用机器学习模型研究表位的免疫原性,使用病毒表位实验T细胞免疫原性数据训练模型,利用公开的冠状病毒免疫原性数据进行模型验证,并分析了不同毒株之间的表位保守性和免疫毒性风险。
- 2021年,Yang等人提出了DeepVacPred,这是一种先进的基于人工智能的多表位疫苗设计工具。他们使用深度神经网络算法进行预测和模型验证,该模型可确定输入肽序列作为疫苗候选物的潜力,先将潜在疫苗亚单位数量初步减少到约30个,然后进行进一步评估和疫苗设计。

此外,分子对接是药物和疫苗发现项目中应用最广泛的方法之一,可识别分子之间的结合方向,帮助推断药物 - 蛋白质相互作用,如表位 - 互补位相互作用。该方法通过搜索算法和评分函数量化配体与受体的结合亲和力和强度,预测配体在受体活性位点的所有可能构象和方向以及相关的自由能。搜索算法开发使用蒙特卡罗、系统搜索、遗传算法、模拟退火等多种算法,评分方法将其转换为数学函数,评分可基于物理、经验(实验)或基于知识的配体与受体相互作用信息。

机器学习用于药物设计的流程包括七个阶段:数据收集、数据准备、选择模型、训练模型、评估模型、参数调整和最终预测。常用的算法有随机森林(RF)、深度神经网络(DNN)、深度学习(DL)和支持向量机(SVM)。模型的准确性取决于训练算法所使用数据的质量和数量,以及对现成模型的验证过程。

graph LR
    A[数据收集] --> B[数据准备]
    B --> C[选择模型]
    C --> D[训练模型]
    D --> E[评估模型]
    E --> F[参数调整]
    F --> G[最终预测]

6. 表位数据库

为了进行表位预测的计算研究,需要用于训练人工智能的数据。这些数据可由多年来整理的数据库提供,这些数据库包含了免疫肽及其物理化学性质的所有必要信息。以下是主要的淋巴细胞表位数据库:
|数据库名称|描述|类型|
| ---- | ---- | ---- |
|AntiJen|包含肽相互作用的定量动力学、扩散系数、热力学结合和细胞数据,包括T细胞表位、B细胞表位、主要组织相容性复合体(MHCs)、TAP转运蛋白、淋巴细胞受体和免疫相互作用,但不允许下载数据|两者|
|BciPep|包含从公共数据库和文献中获得的经实验验证的线性(连续)B细胞表位,数据来自PubMed、Swiss - Prot、MHCBN和蛋白质数据库,表位分为免疫原性、免疫优势和无免疫原性|B细胞|
|IEDB - 3D|免疫表位数据库(IEDB)是一个高度详细的数据资源,记录了实验确定的B细胞和T细胞表位,以及多种生物体的MHC配体结合情况。包含不同表位的信息,如源抗原、表位的结构和序列,数据来自公共数据库、同行评审文献、直接提交和专利申请。有一个完全嵌入的应用程序EpitopeViewer,可可视化抗原结构,还有几个用于各种过程的工具,如计算分子间接触|两者|
|Epitome|提供许多抗体 - 抗原复合物的访问权限,包括残基的可视化和注释,以及结合区域的结构性质。数据来自蛋白质数据库|两者|
|SDAP|结构数据库(SDAP)包含变应原性抗原的结构、序列和表位,还允许进行变应原和肽的匹配以及交叉反应性分析|两者|
|AntigenDB|包含T细胞表位、MHC结合肽的特征、基因表达和翻译后修饰(PTMs)的数据,提供与其他数据库的外部链接,还包括MHC蛋白的结合亲和力、TAP结合物、与PTMs相关的切割位点和T细胞表位|T细胞|
|癌症免疫肽数据库|包含实验收集的用于癌症免疫的肿瘤T细胞抗原|两者|
|CrossTope|包含MHC I复合物的3D结构,这些免疫原性肽来自实验和文献,这些复合物称为pMHC - I|T细胞|
|HIV分子免疫数据库|包含实验发现的B细胞和T细胞表位的信息,以及逃逸突变、表位中的重叠功能域和交叉反应性等信息|两者|
|SEDB|包含T细胞表位、MHC结合肽的特征、基因表达和翻译后修饰(PTMs)的数据,提供与其他数据库的外部链接,还包括MHC蛋白的结合亲和力、TAP结合物、与PTMs相关的切割位点和T细胞表位|两者|
|IEDB binding|使用人工神经网络和SMM - align算法,是一个全面的多用途数据库,拥有最多的人类免疫表位。包含与其他数据库的超链接,包括从文献和实验数据中收集的T细胞测定和MHC结合测定,还提供3D数据库(IEDB 3D)和用于预测TAP结合、MHC结合和蛋白酶体切割的工具|T细胞|
|IMGT/3Dstructure - DB|包含TCR - 肽 - MHC和肽 - MHC复合物的信息和3D配置,带有IMGT - ONTOLOGY分类概念的注释,包括域信息,还有非肽表位和预先计算的接触残基|T细胞|
|JENPEP|包含MHC - I、MHC - II和TAP结合肽的数据,以及其他T细胞表位,还可进行定量预测,是AntiJen的前身|T细胞|
|MHCBN|是一个包含经检测的MHC肽(结合和非结合)的综合目录,包括TAP和T细胞表位,包含重要数据库的超链接,可进行表位映射和创建数据集|T细胞|
|MHCPEP|包含肽序列的数据库,信息包括MHC特异性、结合亲和力、活性、T细胞表位识别、锚定位点等,数据来自发表的文献和实验收集的数据,预定义的反应分类和结合亲和力有助于构建分类器和研究相关性|T细胞|
|MPID - T2|包含肽 - MHC复合物与TCR - 肽 - MHC的晶体结构,以及预先计算的分子间参数,如氢键、间隙指数、间隙体积、对接角度和结合角度等|T细胞|

7. 表位预测的计算工具

不同的工具采用各种方法来最准确地预测和制定B细胞和T细胞表位。这些工具通过抗原和抗体的多种特征和属性为我们提供预测手段。

7.1 B细胞表位预测工具

B细胞淋巴细胞表位主要分为线性和构象两种主要类型,因此工具也针对特定需求而设计,具体如下表所示:
|类型|名称|描述|
| ---- | ---- | ---- |
|线性B细胞表位预测工具|ABCPred|使用固定长度模式和人工(循环)神经网络预测短肽序列,在负数据集上使用随机肽进行训练,是首个用于连续表位预测的服务器|
|线性B细胞表位预测工具|BCPREDS|使用支持向量机(字符串核),支持ABCPred、BCPred、BayesB和AAP方法来预测短肽序列|
|线性B细胞表位预测工具|Bcepred|基于核的支持向量机方法,研究非冗余数据库中抗原的物理化学性质(如灵活性、亲水性、极性和表面暴露),允许在BCPred、FBCPred和氨基酸对缩放方法(AAP)之间选择|
|线性B细胞表位预测工具|Bepipred|使用隐马尔可夫模型(HMM)和倾向标度方法,基于随机森林方法进行训练,灵敏度较低,有多种物理化学倾向标度,包括疏水性、溶剂可及性、抗原性、亲水性和二级结构|
|线性B细胞表位预测工具|LBtope|基于支持向量机的人工神经网络,使用机器学习方法,结合AAP、二肽组成和抗原的二进制轮廓|
|线性B细胞表位预测工具|LEPS|使用支持向量机,结合物理化学倾向和数学形态学|
|线性B细胞表位预测工具|PEOPLE|使用倾向标度方法,基于物理化学性质,采用多参数算法,分析肽链的亲水性、二级结构、灵活性以及β - 转角和氨基酸|
|线性B细胞表位预测工具|SVMtrip|使用支持向量机和三肽组成向量,结合三肽的相似性和倾向进行预测|
|构象B细胞表位预测工具|CBTOPE|使用支持向量机方法,可根据氨基酸序列进行预测,利用物理化学和序列衍生的轮廓创建二进制向量,生成和预测表位倾向|
|构象B细胞表位预测工具|EPITOPIA|使用机器学习方法中的朴素贝叶斯分类器,结合物理化学性质和结构几何,使用七个氨基酸残基的滑动窗口创建向量|
|构象B细胞表位预测工具|PEASE|使用机器学习模型,通过对抗原和表面暴露残基评分,利用抗原和抗体的附着模式,相对组成和残基协同性改善评分方法|
|支持两种类型B细胞的预测工具|BayesB|使用支持向量机和贝叶斯特征提取|
|支持两种类型B细胞的预测工具|COBEpro|使用具有高斯核的支持向量机,通过ACCpro预测溶剂可及性,使用SSpro预测二级结构,一次只能预测一个肽,且只能用于预测小于1500个残基的肽链|
|支持两种类型B细胞的预测工具|BEST|基于支持向量机的工具,使用序列衍生的氨基酸链,比一些现代基于序列的B细胞表位预测工具(如ABCPred、COBEpro、BCPred和CBTOPE)表现更好,使用包含序列保守性、二级结构预测、相对溶剂可及性和与实验获得的B细胞表位相似性的评分系统|

7.2 T细胞表位预测工具

T细胞表位的预测取决于它们结合的主要组织相容性复合体,分为MHC - I和MHC - II两种类型,因此工具及其应用也有所不同,具体如下表所示:
|类型|名称|描述|
| ---- | ---- | ---- |
|T细胞MHC - II类型预测工具|IL4pred|使用支持向量机分类器,以氨基酸组成、氨基酸倾向、二肽组成和物理化学性质为特征|
|T细胞MHC - II类型预测工具|MHC2Pred|使用支持向量机算法,可用于疫苗设计、免疫治疗、免疫系统诊断、细胞免疫学以及预测|
|T细胞MHC - II类型预测工具|NetMHCII|使用人工神经网络,预测MHC - II类超型|
|T细胞MHC - II类型预测工具|NetMHCIIpan|使用人工神经网络,预测MHC - II类超型|
|TAP结合和CTL预测工具|TAP Pred|使用支持向量机预测结合肽的亲和力,对于识别具有限制性的MHC - I T细胞表位至关重要|
|TAP结合和CTL预测工具|CTLPred|使用ANN、SVM和定量矩阵预测CTL表位,提供选择三种方法的组合或共识的选项,用户可固定和更改MHC等位基因|
|T细胞MHC - I类型预测工具|NetCTL|使用带回归的人工神经网络(ANN),能够预测MHC - I复合物的结合亲和力、超型、TAP结合效率和六种脊椎动物(包括人类)C末端的蛋白酶体切割|
|T细胞MHC - I类型预测工具|IEDB binding|使用人工神经网络和SMM - align算法,是一个全面的多用途数据库,拥有最多的人类免疫表位,包含与其他数据库的超链接,包括从文献和实验数据中收集的T细胞测定和MHC结合测定,还提供3D数据库(IEDB 3D)和用于预测TAP结合、MHC结合和蛋白酶体切割的工具|
|T细胞MHC - I类型预测工具|KISS|基于支持向量机(SVM)的多任务核算法,用于等位基因间肽结合预测系统|
|T细胞MHC - I类型预测工具|NetMHC|基于人工神经网络的工具,预测与不同HLA(HLA - A2和H - 2Kk)等位基因的结合亲和力|
|T细胞MHC - I类型预测工具|NetMHCpan|使用人工神经网络模型预测结合亲和力,预测MHC - I类肽与HLA - A以及HLA - B超型的相互作用,不仅适用于人类,还适用于猪、小鼠、黑猩猩、大猩猩、牛和猕猴|
|T细胞MHC - I类型预测工具|nHLApred|使用人工神经网络和定量矩阵技术,预测蛋白酶体切割,提供Compred和ANNPred之间的选择,其中Compred是一种混合预测方式|
|T细胞MHC - I类型预测工具|WAPP|使用带回归的支持向量机,结合TAP转运、蛋白酶体切割和MHC - 肽结合,用于MHC - I抗原结合途径,同时使用PCM(蛋白酶体切割矩阵)、SVMTAP(用于TAP转运)和SVMHC(MHC结合)进行最优预测|

8. 总结与结论

传统疫苗开发耗费大量资源且过程繁琐。使用人工智能技术预测能够引发免疫反应的两种淋巴细胞表位,可以节省这些资源。这些技术为小型任务的实验室实验提供了近乎完美的替代方案,并且成本较低。

通过人工智能技术可以避免在疫苗中添加减毒或灭活病原体,还能深入了解抗原 - 抗体复合物的形成、生物识别和表位映射。随着算法处理的数据越来越多、数据质量不断提高,预测效果也会越来越好。众多T细胞和B细胞表位数据库的存在,为相关研究提供了更多支持。利用这些工具可以发现实验中可能被忽略的潜在表位,还能预防免疫不耐受、细胞因子风暴或疫苗无效等医学问题。

人工智能技术不仅能节省时间和成本,还能引发更准确、理想的免疫原性反应,同时减少不良反应。然而,需要强调的是,这些工具不能替代实验室实验来验证和优化疫苗的安全性和有效性。它们的作用是支持此类实验的设计,以减少实验数量、所需时间和成本。

综上所述,人工智能技术在新兴病原体表位映射疫苗和诊断设计中具有巨大的潜力和价值,未来有望在疫苗研发领域发挥更加重要的作用。

graph LR
    A[传统疫苗开发问题] --> B[人工智能技术优势]
    B --> C[避免添加病原体]
    B --> D[深入了解相关机制]
    B --> E[发现潜在表位]
    B --> F[预防医学问题]
    B --> G[节省时间和成本]
    B --> H[引发理想免疫反应]
    C --> I[提高疫苗安全性]
    D --> I
    E --> I
    F --> I
    G --> I
    H --> I
    I --> J[支持实验设计]
    J --> K[减少实验数量、时间和成本]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值