对误差分类
问题一、什么是偏差和方差?
先看下面这幅图图:
方差: 都是围着数据中心的,方差越大则表示距离数据中心分布的越分散,越小说明越近越集中
偏差: 偏离数据中心, 偏差越大,说明整个数据距离中心越远,偏差越小,说明距离数据中心越近。
这两者的关系通常是矛盾的,降低偏差会提高方差,降低方差会提高偏差。所有一个好的模型就是对这点的一个平衡。
二、模型误差来自于哪些?
模型误差 = 偏差(Bias)+ 方差(Variance) + 不可避免的误差
造成偏差的原因:
1、对本身问题的假设不正确 (比如:非线性数据使用模型回归)
2、选取的特征不对(比如评估学生的成绩选用的名字)
造成方差的原因:
1、数据的一点点抖动
2、通常情况,模型比较复杂(高阶线性回归)
三、哪些算法是高方差,哪些算法是高偏差?
3.1 有一些算法天生是高方差的算法,如KNN,因为KNN对数据的抖动比较明显
3.2 非参数学习通常都是高方差算法,因为不对数据进行任何假设
3.3 有一些算法天生是高偏差算法,比如线性回归。
3.4 参数学习通常是高偏差算法,因为堆数据有很强的假设。
问题四、在机器学习领域,主要学习的挑战主要来自于方差。那么如何降低方差呢?
4.1 降低模型的复杂度
4.2 降低数据维度,降噪</