如何提高机器学习中的分类准确率

1.      扩大数据集。俗话说的好,更好的数据往往能打败更好的算法。当我们想要提高机器学习的分类准确率时,第一个可用的方法就是扩大数据集。只要机器学习花费的时间在可以接受的范围内,就可以继续扩大数据集,它往往可以使我们获得更理想的分类准确率。

2.      分类器选择。遗憾的是,理想的数据集规模往往是我们可望不可即的。这时,我们应该想到的就是选择适合的分类器。以weka为例,如果你使用的训练集较小,那么高偏差/低方差分类器(如朴素贝叶斯)将会是你较优的选择。然而,随着训练集的增大,低偏差/高方差分类器(如k近邻)将提供更好的分类结果,因为它们具有较低的渐近误差,而高偏差分类器则不足以提供准确的模型。此外,数据的各个属性是离散值还是连续值,数据噪声的大小等都可以成为选择分类器的依据。

3.      属性子集选择。好马需配好鞍。在我们选择了合适的分类器后,还需要进行的一项工作就是数据属性子集的选取,也就是选出那些与类别属性相关性较强的,去除不相关和冗余的属性。这项工作如果人工来做的话,是十分复杂且困难的。不过,好在很多机器学习工具都为我们提供了这项功能,还以weka为例,它为我们提供了一个工具——属性评估器。属性评估器分类两类:一是属性子集评估器,它的作用是为我们返回一个“最优”(是否真的最优,还需进行验证)的属性子集。二是单个属性评估器,它通过将给定数目的属性进行排序,得到了一个直观的属性排名列表,我们可以自己把那些排名靠前的属性选出来,并用它们进行分类,从而提高准确率。

4.      集成学习。俗话说的好,三个臭皮匠赛过诸葛亮。机器学习也是如此,集成学习的目标就是通过把若干个弱学习器组合起来,使其成

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值