PSSP之特征提取(PSSP protein secondary structure prediction)

本文探讨了PSSP蛋白质二级结构预测中的特征提取方法,包括One-hot encoding AAC和PSSM编码。使用fasta文件和psi-blast程序生成PSSM,结合uniref50数据库进行数据处理。实验发现SVM分类器在多核组合rbf+lin核函数下表现良好。特征清洗中,考虑了标志位、化学性质和3个AAC,并对比了不同PSSM来源的可靠性。此外,提出归一化特征和滑动窗口处理PSSM以优化预测效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

PSSP之特征提取(PSSP protein secondary structure prediction)

One-hot encoding AAC

维度为20+3(BXZ)。

PSSM encoding

  1. fasta文件
  2. psi-blast程序+protein db(nr db 40G 下载失败 uniref50 6G 下载成功)
  3. makeblastdb.exe (uniref50 格式化成功 耗时 4846 secords)
  4. python批量 cmd操作(待续)
  5. data_process.py

SVM 分类

多核组合rbf+lin 效果好

优化之特征清洗

  • 加上标志位
  • 或是化学性能的特征
  • 还有加上3个AAC
  • 再用数据库uniref50跑一下pssm 还是自己的程序跑出来PSSM 比较靠谱 而且 看了很多论文也用了uniref50说明他还是有点靠谱的
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值