9、生物数据集不平衡分类的SVM改进方法及蛋白质同源寡聚体类型预测

SVM改进与蛋白质结构预测

生物数据集不平衡分类的SVM改进方法及蛋白质同源寡聚体类型预测

1. 不平衡生物数据集的SVM分类改进

在生物信息学中,处理不平衡分类问题是一项具有挑战性的任务。以视网膜相关基因表达数据集为例,该数据集包含了配对同源结构域基因crx敲除小鼠(crx - / -)和野生型(crx + / +)同窝小鼠的视网膜、成年视网膜和显微解剖的外核层(ONL)的基因表达数据。通过基于基因表达序列分析(SAGE)的技术生成表达数据,每个组织文库测序了50000 - 60000个SAGE标签。

该数据集的问题是,根据与每个标签相关的14个基因表达文库,判断一个标签代表的是富含光感受器(PR)的基因还是非富含PR的基因。为了控制采样变异性并允许通过原位杂交(ISH)进行表达检查,研究聚焦于那些在ONL文库中丰度水平至少占总mRNA表达0.01%的标签。训练数据集包括64个已知的富含PR的基因和10个非富含PR的基因,测试数据集包括197个富含PR的基因和53个非富含PR的基因,存在明显的类别不平衡问题。

研究首先使用传统的支持向量机(SVM)进行分类任务。由于数据集高度不平衡,预测结果通过四个统计指标进行评估:总体分类准确率(AC)、精确率(Pr)、灵敏度(Se)和特异度(Sp)。传统SVM分类器的性能严重依赖于核函数和成本参数C的选择。例如,使用多项式函数进行分类时,负类的灵敏度非常低,这意味着在这种情况下它无法区分少数类和多数类。当使用径向基函数(RBF)作为核函数且C值小于50时,也有类似的情况。

核函数 C值 正类AC(%) 正类Pr
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值