蛋白质折叠动力学状态预测与模糊软集决策
1. 蛋白质数据集构建
1.1 数据提取
从 UniProt(http://www.uniprot.org)中提取蛋白质的 PDBID、长度和辅助基本数据。蛋白质排列长度指数据集中每个蛋白质的残基总数,它在预测蛋白质折叠中是一个重要因素。同时,利用 EXPASY 的 ProtParam 工具(http://www.expasy.ch/cgi - receptacle/protparam)识别单体和二聚体中的亲水(D, E, R, K, H, S, T, N, Q, W, C, Y)和疏水(V, F, M, L, A, I, P, G)残基。
1.2 折叠状态预测
使用 K - fold 服务器(http://folding.path.uab.edu/k - fold/K - Fold.html)预测蛋白质的折叠动力学状态(二态或多态)。该服务器基于支持向量机(SVM),利用直接位函数,可预测状态、折叠速率的对数以及展示每个残基的接触频率和接触顺序的图表。
1.3 数据集划分
构建的数据集包含 120 个蛋白质,其中 90 个用于训练,30 个用于测试。
2. 模糊反向传播算法
2.1 反向传播学习算法基础
反向传播学习算法是神经网络中最重要的改进之一,应用于多层前馈网络,其处理元素具有连续可微的激活函数。该算法通过梯度下降法更新权重,从结果的初始猜测开始,取该点函数的梯度,沿梯度的负方向迭代,公式为 (x_{k + 1} = x_{k}-\theta\cdot f’(x_{k})),其中 (\theta
超级会员免费看
订阅专栏 解锁全文
1520

被折叠的 条评论
为什么被折叠?



