PSSP之特征提取(PSSP protein secondary structure prediction)
One-hot encoding AAC
维度为20+3(BXZ)。
PSSM encoding
- fasta文件
- psi-blast程序+protein db(nr db 40G 下载失败 uniref50 6G 下载成功)
- makeblastdb.exe (uniref50 格式化成功 耗时 4846 secords)
- python批量 cmd操作(待续)
- data_process.py
SVM 分类
多核组合rbf+lin 效果好
优化之特征清洗
- 加上标志位
- 或是化学性能的特征
- 还有加上3个AAC
- 再用数据库uniref50跑一下pssm 还是自己的程序跑出来PSSM 比较靠谱 而且 看了很多论文也用了uniref50说明他还是有点靠谱的

本文探讨了PSSP蛋白质二级结构预测中的特征提取方法,包括One-hot encoding AAC和PSSM编码。使用fasta文件和psi-blast程序生成PSSM,结合uniref50数据库进行数据处理。实验发现SVM分类器在多核组合rbf+lin核函数下表现良好。特征清洗中,考虑了标志位、化学性质和3个AAC,并对比了不同PSSM来源的可靠性。此外,提出归一化特征和滑动窗口处理PSSM以优化预测效果。
最低0.47元/天 解锁文章
2572

被折叠的 条评论
为什么被折叠?



