【深度学习】Mixup: Beyond Empirical Risk Minimization

最新推荐文章于 2025-02-02 01:00:00 发布

z小白

最新推荐文章于 2025-02-02 01:00:00 发布

阅读量1w

点赞数 13

CC 4.0 BY-SA版权

分类专栏：深度学习深度学习文章标签：深度学习 mixup ERM 数据增强

本文链接：https://blog.youkuaiyun.com/zzc15806/article/details/80696787

本文介绍了深度学习中的Mixup数据增强技术，它是一种基于经验风险最小化（ERM）和邻域风险最小化（VRM）的扩展方法。Mixup通过线性插值创建训练样本的混合版本，提高模型的泛化能力。研究表明，这种方法可以显著提升模型的性能，且实现简单。文章还提供了Mixup的Python实现代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

博主整理了近几年混合样本数据增强（Mixed Sample Data Augmentation）相关论文和代码，并分享在github上，地址如下，

https://github.com/JasonZhang156/awesome-mixed-sample-data-augmentation

如果大家对混合样本数据增强算法有兴趣，可以star或者fork到自己的仓库。

博主会对内容持续更新！

一、相关理论

Mixup是MIT和FAIR在ICLR 2018上发表的文章中提到的一种数据增强算法。在介绍mixup之前，我们首先简单了解两个概念：经验风险最小化（Empirical risk minimization，ERM）和邻域风险最小化（Vicinal Risk Minimization，VRM）。

“经验风险最小化”是目前大多数网络优化都遵循的一个原则，即使用已知的经验数据（训练样本）训练得到的学习器的误差或风险，也叫作“经验误差”或“训练误差”。相对的，在新样本（未知样本）上的误差称为“泛化误差”，显然，我们希望学习器的“泛化误差”越小越好。然而，通常我们事先并不知道新样本是什么样的，实际能做的是努力使经验误差越小越好。但是，过分的减小经验误差，通常会在未知样本上产生很差的结果，也就是我们常说的“过拟合”。

关于“泛化性”，通常可以通过使用大规模训练数据来提高，但是实际上，获取有标签的大规模数据需要耗费巨大的人工成本，甚至有些情况下根本无法获取数据。解决这个问题的一个有效途径是“邻域风险最小化”，即通过先验知识构造训练样本的邻域值。一般的做法就是传统的数据增强方法，比如加噪、翻转、缩放等，但是这种做法很依赖于特定的数据集和人类的先验知识。