机器学习中的误差分解与生物学习机制
1. 集成学习中的误差分解
1.1 偏差 - 方差 - 协方差分解
偏差 - 方差 - 协方差分解是集成学习算法背后的理论基础,它是偏差 - 方差分解在线性组合模型上的扩展。集成模型 $Nf(x)$ 相对于目标 $d$ 的期望平方误差公式为:
$E{[Nf(x) - d]^2} = bias^2 + \frac{1}{T}var + (1 - \frac{1}{T})covar$
这个误差由模型的平均偏差、平均方差相关项和平均成对协方差相关项组成。这表明单个模型存在偏差 - 方差的二维权衡,而集成模型则受偏差 - 方差 - 协方差的三维权衡控制,这种权衡也被称为集成模型的准确性 - 多样性困境。
1.2 提升集成学习性能的方法
在集成学习中,有两种常见的提升性能的方法:装袋(Bagging)和堆叠(Stacking)。
- 装袋(Bagging) :在多个重采样得到的数据集上运行相同的学习算法,然后对结果进行平均。例如,通过对每个重采样数据集进行 KL 散度最小化,得到 $q^ $ 并进行平均。在有噪声的 Rosenbrock 函数上,通过重采样十次并使用装袋方法实现概率集体(PC),显著提升了性能。
- 堆叠(Stacking) :在同一数据集上组合不同学习算法的估计结果。通常,这些组合估计比单个估计更好。例如,通过组合使用多个模型的 KL 散度最小化算法得到的 $q^ $。实验表明,用于模型选择的交叉验证比单个模型表现更好,而堆叠比交叉验证表现略好。
超级会员免费看
订阅专栏 解锁全文
2125

被折叠的 条评论
为什么被折叠?



