山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题（五）

本文链接：https://blog.youkuaiyun.com/ChloeS0/article/details/121012080

2021SC@SDUSC

基于人工智能的多肽药物分析问题

主题：肽与HLA分子结合预测研究（5）

论文学习

循环神经网络

用于训练的模型架构由三层双向门控循环单元（BiGRU）和一个注意力层堆叠而成。GRU是RNN的一种变体。与RNN类似，GRU具有循环隐藏状态，以此处理可变长度序列，该状态的每次激活都依赖于前一次的激活。GRU和RNN的区别在于循环隐藏状态的更新，这是克服训练模型中梯度消失或爆炸以捕获长期依赖的核心部分。具体而言，GRU建议推导每个时间步 t 的隐藏状态 $h_t$ 的向量表示，如下所示：

$z_t = σ(W_zx_t+U_zh_{t-1}+b_z)$
$r_t = σ(W_rx_t+U_rh_{t-1}+b_r)$
$h_t = (1 − z_t )○h_{t−1} + z_t ○ φ(W_hx_t+U_h(r_t○h_{t-1}+b_h)$

其中 $x_t$ 是输入向量， $h_t$ 是输出向量， $z_t$ 是更新门向量， $r_t$ 是重置门向量，W，U和b是参数矩阵和向量，σ是logistic sigmoid函数，φ是双曲正切。

至于BiGRU，它将GRU的神经元分成两个方向，一个为正时间方向（正向状态），另一个为负时间方向（反向状态）。通过使用两个时间方向，可以使用来自当前时间帧的过去和未来的输入信息。

注意力模块

注意力模块与BiGRU模块相结合，使49种氨基酸的长期依赖性建模更容易。注意力机制首先由Bahdanaau等人提出，但文章使用了Raffel和Ellis提出的注意力类型。给定一个在每个时间步产生隐藏状态 $h_t$ 的模型，基于注意力的模型计算一个“上下文”向量 c 作为状态序列 h 的加权平均值

$et=σa(ht),αt=exp(et)∑k=1Texp(ek),c=∑t=1Texp(αtht)e_t = σ_a(h_t), α_t = \frac{exp(e_t)}{\sum\nolimits_{k=1}^Texp(e_k)}, c = \sum\nolimits_{t=1}^Texp(α_th_t)$
其中 $σ_a$ 是仅依赖于 $h_t$ 的可学习函数。
在这里插入图片描述

模型训练

训练前，按照用于pan-等位基因预测的NetMHCpan方法将HLA等位基因转化为伪序列（即，每个HLA等位基因转化为位于肽4.0埃内的34个氨基酸残基）。然后，将肽与HLA伪序列连接。如果组合序列的长度小于49个氨基酸，将用伪氨基酸“X”作为填充。one-hot编码用于氨基酸表示（即，将每个氨基酸转换为20个0和1个1的唯一载体）。
采用两个步骤进行可靠的模型训练。首先，使用原始数据集进行基本模型训练。然后，使用初步模型选择高置信度伪模型阳性/阴性HLA-肽对。将选定的伪对添加到原始数据集中，平衡训练数据，以训练最终模型。其他参数如下：dropout rate设置为0.2，使用sigmoid函数作为激活函数，使用二进制交叉熵（BCE）进行损失计算，使用默认学习率为0.001的Adam优化器进行参数优化。

五折交叉验证

五重交叉验证用于评估模型的健壮性。在训练之前，数据集被随机划分为五个不重叠的子集。交叉验证过程重复五次，每一子集用作验证集，其余子集用作训练集。将五个验证集的结果取平均值，以获得最终结果。执行100个epoch，如果验证精度优于前面的训练轮次，则保存模型。

评估指标

AUC（Area Under Curve）下的面积是模型和软件比较的主要测量值。ACC（Accuracy）用于单标记HLA等位基因结合模型的性能评估。精度 Precision[true positives/(true positives + false positives)]和召回率 recall [true positives/(true positives + false negatives)]用于说明免疫原性模型的重要性。