算法稳定性理论(algorithmic stability theory)与泛化误差(generalization error)

最新推荐文章于 2024-12-05 00:04:40 发布

原创

最新推荐文章于 2024-12-05 00:04:40 发布 · 3.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能

本文探讨了算法稳定性在衡量机器学习模型效用时的重要性，特别是它与泛化误差的关系。通过Bousquet(2002)的工作，介绍了几种稳定性定义，如假设稳定性、误差稳定性与一致稳定性，并揭示了它们对泛化误差界的影响。文章还展示了稳定性与高阶收敛性的关系，以及在差分隐私模型中的应用价值。

在衡量机器学习模型的效用（比如 优化误差、泛化误差 等，我们在这里把这些东西统称为“效用”）的时候，优化和泛化理论 是很重要的工具，用来分析差分隐私模型的各种风险界（像 population risk 和 empirical risk)。

其中，在分析泛化误差的时候，算法稳定性理论，algorithmic stability theory 在近几年很受研究者关注，因为它是 算法相关 的，和传统复杂度理论、搜索空间那一套有点不太一样。

本文基于 Bousquet 2002年发表于 JMLR 上的文章 Stability and Generalization 对一些 稳定性定义 以及 它们与泛化误差之间的关系 进行介绍，构建一个稳定性理论基本框架。

本文试图对稳定性理论进行扫盲式科普，因此不对证明细节进行关注，有兴趣的朋友们可以参考原论文（在网上应该很容易就能找到，如果有朋友找不到还有兴趣的话可以私信我把文章发过去），也欢迎大家一起讨论。

【一】背景

在介绍各种算法稳定性指标之前，我们首先大概了解一下稳定性究竟是个什么样的东西。

算法稳定性实质上是一种 敏感度（sensitivity），它表征了输入的变化会在多大程度上导致系统输出的变化。
举个例子，假设损失函数在参数 $θ,θ′\theta,\theta'$ 上的值分别为 $ℓ(θ),ℓ(θ′)\ell(\theta),\ell(\theta')$ ，那么就可以（粗浅地）定义其敏感度为 $∣ℓ(θ)−ℓ(θ′)∣|\ell(\theta)-\ell(\theta')|$ ，这个值表征了 输入对损失函数值的影响（在这里我们只是举个例子，更细致的定义我们会在后文进行介绍）。