机器学习中的正则化、偏差与方差及贝叶斯规则拟合直线
1. 正则化参数 λ
在机器学习中,常使用小写希腊字母 λ(lambda)作为正则化参数,不过有时也会用其他字母。一般来说,λ 值越大,正则化程度越高。保持参数值较小,通常意味着分类器的边界曲线不会像原本那样复杂和波动。我们可以利用正则化参数 λ 来选择边界的复杂程度。高 λ 值会得到平滑的边界,而低 λ 值则能让边界更精确地拟合数据。
对于多层处理的学习架构,还可使用一些专门的正则化技术,如丢弃法(dropout)、批量归一化(batchnorm)、层归一化(layer norm)和权重正则化,这些方法有助于控制此类架构的过拟合问题,其目的是防止网络中的任何元素主导结果。
2. 偏差和方差
偏差和方差这两个统计术语与欠拟合和过拟合密切相关,在讨论这些话题时经常会被提及。偏差衡量的是系统持续学习错误内容的倾向,而方差衡量的是系统学习无关细节的倾向。也可以这样理解,大量的偏差意味着系统对特定类型的结果存在偏好,而大量的方差意味着系统返回的答案对数据过于特定。
我们将通过二维曲线来直观地探讨这两个概念。这些曲线可能是回归问题的解,比如为商店背景音乐随时间设置节奏的任务;也可能是分类问题中平面两个区域之间的边界曲线。偏差和方差的概念并不局限于某一种算法或二维数据,但我们选择二维曲线是因为可以绘制和解释它们。接下来,我们将专注于找到与潜在噪声曲线的良好拟合,并看看偏差和方差的概念如何描述我们算法的行为。
3. 匹配潜在数据
假设一位大气研究人员朋友找我们帮忙。她在几个月里,每天同一时间测量山顶某一地点的风速,其测量数据如图所示,其中有明显的潜在曲线,
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



