在衡量机器学习模型的效用(比如 优化误差、泛化误差 等,我们在这里把这些东西统称为“效用”)的时候,优化和泛化理论 是很重要的工具,用来分析差分隐私模型的各种风险界(像 population risk 和 empirical risk)。
其中,在分析泛化误差的时候,算法稳定性理论,algorithmic stability theory 在近几年很受研究者关注,因为它是 算法相关 的,和传统复杂度理论、搜索空间那一套有点不太一样。
本文基于 Bousquet 2002年发表于 JMLR 上的文章 Stability and Generalization 对一些 稳定性定义 以及 它们与泛化误差之间的关系 进行介绍,构建一个稳定性理论基本框架。
本文试图对稳定性理论进行扫盲式科普,因此不对证明细节进行关注,有兴趣的朋友们可以参考原论文(在网上应该很容易就能找到,如果有朋友找不到还有兴趣的话可以私信我把文章发过去),也欢迎大家一起讨论。
【一】背景
在介绍各种算法稳定性指标之前,我们首先大概了解一下稳定性究竟是个什么样的东西。
算法稳定性实质上是一种 敏感度(sensitivity),它表征了输入的变化会在多大程度上导致系统输出的变化。
举个例子,假设损失函数在参数 θ,θ′\theta,\theta'θ,θ′上的值分别为 ℓ(θ),ℓ(θ′)\ell(\theta),\ell(\theta')ℓ(θ),ℓ(θ′),那么就可以(粗浅地)定义其敏感度为∣ℓ(θ)−ℓ(θ′)∣|\ell(\theta)-\ell(\theta')|∣ℓ(θ)−ℓ(θ′)∣,这个值表征了 输入对损失函数值的影响(在这里我们只是举个例子,更细致的定义我们会在后文进行介绍)。
有了这个东西我们就可以发现,算法稳定性(敏感度)这个东西是与算法相关的,因为 θ,θ′\theta,\theta'θ,θ′ 可以看作算法输出的模型参数。
这就是稳定性理论与传统的复杂度理论不同的地方,复杂度理论关注整个搜索空间(函数空间),这个空间可能非常大,会导致求解出来的泛化误差同样很大。
接下来,我们面临的一个问题就是,对于一个算法,如何定义 θ\thetaθ 和 θ′\theta'θ′。
【二】基本定义
首先定义样本规模为 mmm 的训练数据集 SSS,其中的数据样本 zi=(xi,yi)z_i=(x_i,y_i)zi=(xi,yi) 独立同分布采样于分布 DDD:

然后定义 移除和置换 数据点 ziz_izi 的数据集:

其中 zi′z_i'zi′ 也是从分布 DDD 中采样并与 SSS 无关。
此外,为了度量算法的性能,定义如下指标:
期望误差(也就是我们平时所说的 population risk):
R(A,S)=Ez[ℓ(AS,z)], R(A,S)=\mathbb{E}_z[\ell(A_S,z)], R(A,S)

本文探讨了算法稳定性在衡量机器学习模型效用时的重要性,特别是它与泛化误差的关系。通过Bousquet(2002)的工作,介绍了几种稳定性定义,如假设稳定性、误差稳定性与一致稳定性,并揭示了它们对泛化误差界的影响。文章还展示了稳定性与高阶收敛性的关系,以及在差分隐私模型中的应用价值。
最低0.47元/天 解锁文章
3215

被折叠的 条评论
为什么被折叠?



