13、模型性能评估与误差分析

模型性能评估与误差分析

模型性能评估与误差分析

在机器学习领域,准确评估模型性能并理解误差来源至关重要。下面将详细探讨模型性能的测量、误差来源、降低误差的方法以及双下降现象。

1. 性能测量

为了生成训练示例 ${x_i, y_i}$,将输入空间 $x \in [0, 1]$ 划分为 $I$ 个相等的段,从每个段内的均匀分布中抽取一个样本 $x_i$。对应的 $y_i$ 值通过在 $x_i$ 处评估函数并添加高斯噪声得到。测试数据以相同的方式生成。

为了估计模型的真实性能,需要一个单独的测试集。以MNIST - 1D数据集为例,使用10000个训练示例和5000个测试示例。随着训练的进行,测试误差会下降,但最终只能达到约40%,远不如训练集的表现,这表明模型在测试数据上的泛化能力不佳。

测试损失在训练的前1500步下降,但随后会增加。此时,测试错误率相对稳定,但模型对错误答案的置信度增加,导致正确答案的概率降低,从而增加了负对数似然。这是softmax函数的副作用,为了使训练数据的概率接近1,softmax前的激活值被驱动到极端值。

2. 误差来源

当模型无法泛化时,误差主要来源于三个方面:噪声、偏差和方差。

2.1 噪声、偏差和方差
  • 噪声 :数据生成过程中添加了噪声,对于每个输入 $x$ 可能有多个有效的输出 $y$。这种误差对于测试数据来说是无法克服的,但不一定会限制训练性能,因为在训练过程中可能不会两次遇到相同的输入 $x$,所以仍有可能完美拟合训练数据。噪声可能源于数据生成过程中的随机因素、数据标签错误或未观察到的解释变量。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值