山东大学2019级软件工程应用与实践——基于人工智能的多肽药物分析问题(五)

2021SC@SDUSC

基于人工智能的多肽药物分析问题

主题:肽与HLA分子结合预测研究(5)
论文学习
循环神经网络

用于训练的模型架构由三层双向门控循环单元(BiGRU)和一个注意力层堆叠而成。GRU是RNN的一种变体。与RNN类似,GRU具有循环隐藏状态,以此处理可变长度序列,该状态的每次激活都依赖于前一次的激活。GRU和RNN的区别在于循环隐藏状态的更新,这是克服训练模型中梯度消失或爆炸以捕获长期依赖的核心部分。具体而言,GRU建议推导每个时间步 t 的隐藏状态 hth_tht 的向量表示,如下所示:

zt=σ(Wzxt+Uzht−1+bz)z_t = σ(W_zx_t+U_zh_{t-1}+b_z)zt=σ(Wzxt+Uzht1+bz)
rt=σ(Wrxt+Urht−1+br)r_t = σ(W_rx_t+U_rh_{t-1}+b_r)rt=σ(Wrxt+Urht1+br)
ht=(1−zt)○ht−1+zt○φ(Whxt+Uh(rt○ht−1+bh)h_t = (1 − z_t )○h_{t−1} + z_t ○ φ(W_hx_t+U_h(r_t○h_{t-1}+b_h)ht=(1zt)ht1+ztφ(Whxt+Uh(rtht1+bh)

其中 xtx_txt 是输入向量,hth_tht 是输出向量,ztz_tzt 是更新门向量,rtr_trt 是重置门向量,W,U和b是参数矩阵和向量,σ是logistic sigmoid函数,φ是双曲正切。

至于BiGRU,它将GRU的神经元分成两个方向,一个为正时间方向(正向状态),另一个为负时间方向(反向状态)。通过使用两个时间方向,可以使用来自当前时间帧的过去和未来的输入信息。

注意力模块

注意力模块与BiGRU模块相结合,使49种氨基酸的长期依赖性建模更容易。注意力机制首先由Bahdanaau等人提出,但文章使用了Raffel和Ellis提出的注意力类型。给定一个在每个时间步产生隐藏状态 hth_tht 的模型,基于注意力的模型计算一个“上下文”向量 c 作为状态序列 h 的加权平均值

et=σa(ht),αt=exp(et)∑k=1Texp(ek),c=∑t=1Texp(αtht)e_t = σ_a(h_t), α_t = \frac{exp(e_t)}{\sum\nolimits_{k=1}^Texp(e_k)}, c = \sum\nolimits_{t=1}^Texp(α_th_t)et=σa(ht),αt=k=1Texp(ek)exp(et),c=t=1Texp(αtht)
其中 σaσ_aσa 是仅依赖于 hth_tht 的可学习函数。
在这里插入图片描述

模型训练

训练前,按照用于pan-等位基因预测的NetMHCpan方法将HLA等位基因转化为伪序列(即,每个HLA等位基因转化为位于肽4.0埃内的34个氨基酸残基)。然后,将肽与HLA伪序列连接。如果组合序列的长度小于49个氨基酸,将用伪氨基酸“X”作为填充。one-hot编码用于氨基酸表示(即,将每个氨基酸转换为20个0和1个1的唯一载体)。
采用两个步骤进行可靠的模型训练。首先,使用原始数据集进行基本模型训练。然后,使用初步模型选择高置信度伪模型阳性/阴性HLA-肽对。将选定的伪对添加到原始数据集中,平衡训练数据,以训练最终模型。其他参数如下:dropout rate设置为0.2,使用sigmoid函数作为激活函数,使用二进制交叉熵(BCE)进行损失计算,使用默认学习率为0.001的Adam优化器进行参数优化。

五折交叉验证

五重交叉验证用于评估模型的健壮性。在训练之前,数据集被随机划分为五个不重叠的子集。交叉验证过程重复五次,每一子集用作验证集,其余子集用作训练集。将五个验证集的结果取平均值,以获得最终结果。执行100个epoch,如果验证精度优于前面的训练轮次,则保存模型。

评估指标

AUC(Area Under Curve)下的面积是模型和软件比较的主要测量值。ACC(Accuracy)用于单标记HLA等位基因结合模型的性能评估。精度 Precision[true positives/(true positives + false positives)]和召回率 recall [true positives/(true positives + false negatives)]用于说明免疫原性模型的重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值