7、蛋白质结构相似性预测与业务流程模型生成方法

蛋白质结构相似性预测与业务流程模型生成方法

1. 蛋白质超家族预测方法:AutoSimP

1.1 AutoSimP 自动编码器功能

AutoSimP 是一种用于预测蛋白质超家族的监督分类器,它基于深度自动编码器集成。自动编码器的第一个操作是嵌入,将代表蛋白质构象的 n 个 SA 字母向量通过嵌入层映射到 64·n 维空间,这种表示是密集的,类似于词嵌入技术。

随后,使用 1D 卷积层(滤波器大小分别为 32、12 和 7)将这个高维向量编码到 3·n/8 维空间。解码器使用与编码器相同数量的滤波器对这些表示进行上采样。编码器使用核大小为 3、步长为 2 的 1D 卷积层,而解码器使用步长为 2 的相同类型卷积层和 1D 上采样层。

网络使用 ELU 激活函数和批量归一化层。作为正则化策略,采用 l1 - l2 技术,正则化参数 λ 的值为 10 - 2。通过随机梯度下降结合 RMSprop 优化器实现自动编码器的优化,使用批量大小为 32 的小批量方法。数据集被打乱,16% 用于验证,通过测量验证损失保留验证阶段表现最佳的模型,自动编码器的超参数通过网格搜索方法选择。

1.2 训练与测试

训练后,AutoSimP 在每个数据集 Di 的 24% 上进行评估,即每个超家族 Fj 中每个蛋白质的 24% 构象,这些构象在训练期间未被见过。自动编码器 Aj 为构象 c 计算的损失值 Lj(c, c) 用于衡量模型输出 c 与输入 c 的接近程度。

在构象级别测试时,构象 c 被 AutoSimP 分类为属于超家族 Fi,其中 i = argminj = 1,nf Lj(c, c)。在蛋白质级别测试时,测试集中表示为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值