1. 扩大数据集。俗话说的好,更好的数据往往能打败更好的算法。当我们想要提高机器学习的分类准确率时,第一个可用的方法就是扩大数据集。只要机器学习花费的时间在可以接受的范围内,就可以继续扩大数据集,它往往可以使我们获得更理想的分类准确率。
2. 分类器选择。遗憾的是,理想的数据集规模往往是我们可望不可即的。这时,我们应该想到的就是选择适合的分类器。以weka为例,如果你使用的训练集较小,那么高偏差/低方差分类器(如朴素贝叶斯)将会是你较优的选择。然而,随着训练集的增大,低偏差/高方差分类器(如k近邻)将提供更好的分类结果,因为它们具有较低的渐近误差,而高偏差分类器则不足以提供准确的模型。此外,数据的各个属性是离散值还是连续值,数据噪声的大小等都可以成为选择分类器的依据。
3. 属性子集选择。好马需配好鞍。在我们选择了合适的分类器后,还需要进行的一项工作就是数据属性子集的选取,也就是选出那些与类别属性相关性较强的,去除不相关和冗余的属性。这项工作如果人工来做的话,是十分复杂且困难的。不过,好在很多机器学习工具都为我们提供了这项功能,还以weka为例,它为我们提供了一个工具——属性评估器。属性评估器分类两类:一是属性子集评估器,它的作用是为我们返回一个“最优”(是否真的最优,还需进行验证)的属性子集。二是单个属性评估器,它通过将给定数目的属性进行排序,得到了一个直观的属性排名列表,我们可以自己把那些排名靠前的属性选出来,并用它们进行分类,从而提高准确率。
4. 集成学习。俗话说的好,三个臭皮匠赛过诸葛亮。机器学习也是如此,集成学习的目标就是通过把若干个弱学习器组合起来,使其成

最低0.47元/天 解锁文章
8305

被折叠的 条评论
为什么被折叠?



