深度学习者泛化的集成方法
在机器学习和深度学习领域,提升模型的泛化能力是一个关键目标。为了实现这一目标,集成方法成为了一种有效的策略。下面将详细介绍几种常见的集成方法及其原理和应用。
1. 集成方法概述
集成方法的灵感来源于偏差 - 方差权衡。分类器的误差可以通过降低偏差或方差来减少,而不影响另一个组件。常见的集成方法有装袋(Bagging)和提升(Boosting),前者用于降低方差,后者用于降低偏差。在神经网络中,大多数集成方法侧重于降低方差,因为神经网络能够构建任意复杂的模型,偏差相对较低,但在偏差 - 方差权衡的复杂端操作往往会导致更高的方差,表现为过拟合。因此,神经网络集成方法的目标通常是降低方差,实现更好的泛化。
2. 装袋和子采样
- 原理 :如果有无限的训练数据资源,可以通过重复创建不同的训练数据集,并使用这些数据集对同一测试实例进行预测,然后对不同数据集的预测结果进行平均,以得到最终预测。当有足够多的训练数据集时,预测的方差可以渐近地降低到 0,但偏差仍取决于模型的选择。然而,在实际中,我们通常只有一个有限的数据集。此时,可以通过采样从这个基础数据集中生成新的训练数据集,采样可以有放回或无放回。
- 装袋(Bagging) :
- 操作步骤 :
- 有放回地对训练数据进行采样,样本大小 s 可以与训练数据大小 n 不同,但通常设置 s = n。当 s = n 时,重采样的数据会包含重复项,约有 (1 - 1/n)^n ≈ 1/e 的原
- 操作步骤 :
深度学习集成方法综述
超级会员免费看
订阅专栏 解锁全文
2213

被折叠的 条评论
为什么被折叠?



