机械学习中的误差分析、偏斜类问题

最新推荐文章于 2024-03-20 15:33:22 发布

原创最新推荐文章于 2024-03-20 15:33:22 发布

· 508 阅读

0 ·

版权

文章标签：

#大数据 #计算机视觉 #机器学习 #回归 #数据挖掘

机器学习专栏收录该内容

14 篇文章

订阅专栏

1、误差分析

2、偏斜类问题

3、查准率和召回率的权衡

1、误差分析

首先当我们在设计一个算法的时候，我们通常会花很多时间在第一步的复杂构想上，然后设计出模型，当我们的算法基本成型的时候才发现问题（难点）的所在，这时，要修改其实就比较麻烦了，需要重新构思、修改模型。

这里我们推荐一种办法，通过设计一个简单粗暴的算法，一个最基础的系统，或许这个最基础的系统与我们所能构建的 “最佳” 系统相去甚远，但研究其中的基础功能也是很有价值的，我们可以用来找到算法的不足之处和难以处理的样本类型。

那么又怎么进行误差分析呢？

如吴恩达所讲授的垃圾邮件分类的例子中，我们找出在交叉验证集中一些分类错误的样本（100个），我们可以手动对这100个样本进行分类，然后找出是什么原因导致的分类错误（采用了拼音？字母变形？间隔符？等等原因，这里假设三种情况），假设这100个样本之中，由于垃圾邮件使用拼音导致分类错误的样本有90个，字母变形导致分类错误的样本有2个，间隔符导致的有8个。那么接下来我们是不是已经知道要重点优化那一部分的代码了。在我们重点优化拼音那一部分代码之后，我们可以发现这个算法的精度有着明显的提升了。

或许有人还会问到，如果我不知道这个参数是否有用（例如是否要将university和universe是否识别为同一个单词），我又应该怎么样去验证呢？我们可以利用交叉验证集，观察将universe和university视为用一个单词的算法精度和不视为同一个单词的精度，观察哪一个分类的精度会更高，则采取哪一种分类方式。