15、机器学习中的泛化误差与分类性能评估

机器学习中的泛化误差与分类性能评估

1. 泛化误差概述

泛化误差是衡量模型在未见过的数据上表现的重要指标。在机器学习中,我们通常使用训练集来训练模型,但模型最终的性能需要在未参与训练的数据上进行评估,这就涉及到泛化误差的概念。

1.1 偏差(Bias)

对于一组数据 ${q_1, q_2, \ldots, q_N}$,其均值 $\mu$ 可以通过以下公式进行估计:
$\hat{\mu} = \frac{1}{N} \sum_{i=1}^{N} q_i$
这是一个无偏估计量,偏差定义为 $\mathbb{E}[\hat{\mu} - \mu]$。当 $N \to \infty$ 时,$\hat{\mu} \to \mu$ 且偏差 $\to 0$。

在人工神经网络(ANN)中,高偏差的模型往往不能很好地解释训练集。例如,在第 3.4 节中用最小二乘法拟合正弦曲线的例子,由于正弦曲线不是线性的,模型存在很高的偏差,这种现象在机器学习中被称为欠拟合。欠拟合可能是由于损失阈值设置过高,或者神经网络学习训练集的能力不足,比如层数太少或神经元数量不够。增加神经元数量可以提高神经网络的学习能力,这可以通过增加网络深度或加宽某一层来实现。

1.2 方差(Variance)

泛化误差的第二项是方差,它衡量了模型在对底层过程进行采样时的变化程度。训练集是底层过程或现象的一个样本,实际上是一个随机变量。对于给定的统计量(如算术平均值),不同的训练集会导致不同的结果,而底层过程本身有一个未知的均值。因此,模型实际上是训练集的函数,而训练集是随机变量。方差衡量了模型性能相对于底层过程采样的变化情况。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值