模型性能评估与误差分析
在机器学习领域,准确评估模型性能并理解误差来源至关重要。下面将详细探讨模型性能的测量、误差来源、降低误差的方法以及双下降现象。
1. 性能测量
为了生成训练示例 ${x_i, y_i}$,将输入空间 $x \in [0, 1]$ 划分为 $I$ 个相等的段,从每个段内的均匀分布中抽取一个样本 $x_i$。对应的 $y_i$ 值通过在 $x_i$ 处评估函数并添加高斯噪声得到。测试数据以相同的方式生成。
为了估计模型的真实性能,需要一个单独的测试集。以MNIST - 1D数据集为例,使用10000个训练示例和5000个测试示例。随着训练的进行,测试误差会下降,但最终只能达到约40%,远不如训练集的表现,这表明模型在测试数据上的泛化能力不佳。
测试损失在训练的前1500步下降,但随后会增加。此时,测试错误率相对稳定,但模型对错误答案的置信度增加,导致正确答案的概率降低,从而增加了负对数似然。这是softmax函数的副作用,为了使训练数据的概率接近1,softmax前的激活值被驱动到极端值。
2. 误差来源
当模型无法泛化时,误差主要来源于三个方面:噪声、偏差和方差。
2.1 噪声、偏差和方差
- 噪声 :数据生成过程中添加了噪声,对于每个输入 $x$ 可能有多个有效的输出 $y$。这种误差对于测试数据来说是无法克服的,但不一定会限制训练性能,因为在训练过程中可能不会两次遇到相同的输入 $x$,所以仍有可能完美拟合训练数据。噪声可能源于数据生成过程中的随机因素、数据标签错误或未观察到的解释变量。
模型性能评估与误差分析
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



