生物数据集不平衡分类的SVM改进方法及蛋白质同源寡聚体类型预测
1. 不平衡生物数据集的SVM分类改进
在生物信息学中,处理不平衡分类问题是一项具有挑战性的任务。以视网膜相关基因表达数据集为例,该数据集包含了配对同源结构域基因crx敲除小鼠(crx - / -)和野生型(crx + / +)同窝小鼠的视网膜、成年视网膜和显微解剖的外核层(ONL)的基因表达数据。通过基于基因表达序列分析(SAGE)的技术生成表达数据,每个组织文库测序了50000 - 60000个SAGE标签。
该数据集的问题是,根据与每个标签相关的14个基因表达文库,判断一个标签代表的是富含光感受器(PR)的基因还是非富含PR的基因。为了控制采样变异性并允许通过原位杂交(ISH)进行表达检查,研究聚焦于那些在ONL文库中丰度水平至少占总mRNA表达0.01%的标签。训练数据集包括64个已知的富含PR的基因和10个非富含PR的基因,测试数据集包括197个富含PR的基因和53个非富含PR的基因,存在明显的类别不平衡问题。
研究首先使用传统的支持向量机(SVM)进行分类任务。由于数据集高度不平衡,预测结果通过四个统计指标进行评估:总体分类准确率(AC)、精确率(Pr)、灵敏度(Se)和特异度(Sp)。传统SVM分类器的性能严重依赖于核函数和成本参数C的选择。例如,使用多项式函数进行分类时,负类的灵敏度非常低,这意味着在这种情况下它无法区分少数类和多数类。当使用径向基函数(RBF)作为核函数且C值小于50时,也有类似的情况。
| 核函数 | C值 | 正类AC(%) | 正类Pr |
|---|
SVM改进与蛋白质结构预测
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



