9、生物数据集不平衡分类的SVM改进方法及蛋白质同源寡聚体类型预测

SVM改进与蛋白质结构预测

day7

于 2025-08-20 09:09:14 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：信息学教育的现在与未来文章标签： SVM 生物信息学不平衡数据分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/day7/article/details/153663186

信息学教育的现在与未来专栏收录该内容

71 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

生物数据集不平衡分类的SVM改进方法及蛋白质同源寡聚体类型预测

1. 不平衡生物数据集的SVM分类改进

在生物信息学中，处理不平衡分类问题是一项具有挑战性的任务。以视网膜相关基因表达数据集为例，该数据集包含了配对同源结构域基因crx敲除小鼠（crx - / -）和野生型（crx + / +）同窝小鼠的视网膜、成年视网膜和显微解剖的外核层（ONL）的基因表达数据。通过基于基因表达序列分析（SAGE）的技术生成表达数据，每个组织文库测序了50000 - 60000个SAGE标签。

该数据集的问题是，根据与每个标签相关的14个基因表达文库，判断一个标签代表的是富含光感受器（PR）的基因还是非富含PR的基因。为了控制采样变异性并允许通过原位杂交（ISH）进行表达检查，研究聚焦于那些在ONL文库中丰度水平至少占总mRNA表达0.01%的标签。训练数据集包括64个已知的富含PR的基因和10个非富含PR的基因，测试数据集包括197个富含PR的基因和53个非富含PR的基因，存在明显的类别不平衡问题。

研究首先使用传统的支持向量机（SVM）进行分类任务。由于数据集高度不平衡，预测结果通过四个统计指标进行评估：总体分类准确率（AC）、精确率（Pr）、灵敏度（Se）和特异度（Sp）。传统SVM分类器的性能严重依赖于核函数和成本参数C的选择。例如，使用多项式函数进行分类时，负类的灵敏度非常低，这意味着在这种情况下它无法区分少数类和多数类。当使用径向基函数（RBF）作为核函数且C值小于50时，也有类似的情况。

核函数	C值	正类AC(%)	正类Pr

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。