蛋白质结构相似性预测与业务流程模型生成方法
1. 蛋白质超家族预测方法:AutoSimP
1.1 AutoSimP 自动编码器功能
AutoSimP 是一种用于预测蛋白质超家族的监督分类器,它基于深度自动编码器集成。自动编码器的第一个操作是嵌入,将代表蛋白质构象的 n 个 SA 字母向量通过嵌入层映射到 64·n 维空间,这种表示是密集的,类似于词嵌入技术。
随后,使用 1D 卷积层(滤波器大小分别为 32、12 和 7)将这个高维向量编码到 3·n/8 维空间。解码器使用与编码器相同数量的滤波器对这些表示进行上采样。编码器使用核大小为 3、步长为 2 的 1D 卷积层,而解码器使用步长为 2 的相同类型卷积层和 1D 上采样层。
网络使用 ELU 激活函数和批量归一化层。作为正则化策略,采用 l1 - l2 技术,正则化参数 λ 的值为 10 - 2。通过随机梯度下降结合 RMSprop 优化器实现自动编码器的优化,使用批量大小为 32 的小批量方法。数据集被打乱,16% 用于验证,通过测量验证损失保留验证阶段表现最佳的模型,自动编码器的超参数通过网格搜索方法选择。
1.2 训练与测试
训练后,AutoSimP 在每个数据集 Di 的 24% 上进行评估,即每个超家族 Fj 中每个蛋白质的 24% 构象,这些构象在训练期间未被见过。自动编码器 Aj 为构象 c 计算的损失值 Lj(c, c) 用于衡量模型输出 c 与输入 c 的接近程度。
在构象级别测试时,构象 c 被 AutoSimP 分类为属于超家族 Fi,其中 i = argminj = 1,nf Lj(c, c)。在蛋白质级别测试时,测试集中表示为
超级会员免费看
订阅专栏 解锁全文

1056

被折叠的 条评论
为什么被折叠?



