Daily AI 20250513 (集成学习及其与联邦学习的区别)

最新推荐文章于 2025-07-17 14:38:53 发布

idkmn_

最新推荐文章于 2025-07-17 14:38:53 发布

阅读量424

点赞数 3

CC 4.0 BY-SA版权

分类专栏：每日AI一下文章标签：人工智能集成学习机器学习神经网络

本文链接：https://blog.youkuaiyun.com/xbn20000224/article/details/147880367

每日AI一下专栏收录该内容

6 篇文章

订阅专栏

参考资料：神经网络与深度学习

这里写自定义目录标题

集成学习（Ensemble Learning）

通过某种策略将多个模型集成起来，通过群体决策来提高决策准确率，对于 M 个不同的模型 $f_1(\boldsymbol{x}), \cdots, f_M(\boldsymbol{x})$ ，每个模型的期望错误为：
$\mathcal{R}\left(f_m\right)=\mathbb{E}_{\boldsymbol{x}}\left[\left(f_m(\boldsymbol{x})-h(\boldsymbol{x})\right)^2\right]=\mathbb{E}_x\left[\epsilon_m(\boldsymbol{x})^2\right]$ ，其中 $h(\cdot)$ 表征输入与输出间的真实关系， $\epsilon_m(\boldsymbol{x})$ 即为误差项。则全部模型等权重“聚合”的平均错误为：
$\overline{\mathcal{R}}(f)=\frac{1}{M} \sum_{m=1}^M \mathbb{E}_{\boldsymbol{x}}\left[\epsilon_m(\boldsymbol{x})^2\right]$
基于等权重“聚合”（投票）的集成模型为：
$F(\boldsymbol{x})=\frac{1}{M} \sum_{m=1}^M f_m(\boldsymbol{x})$
对于 $M$ 个不同的模型 $f_1(\boldsymbol{x}), \cdots, f_M(\boldsymbol{x})$ ，其平均期望错误为 $\overline{\mathcal{R}}(f)$ 。基于简单投票机制的集成模型 $F(\boldsymbol{x})=\frac{1}{M} \sum_{m=1}^M f_m(\boldsymbol{x}), F(\boldsymbol{x})$ 的期望错误在 $\frac{1}{M} \overline{\mathcal{R}}(f)$ 和 $\overline{\mathcal{R}}(f)$ 之间．
证明：
$\begin{aligned} \mathcal{R}(F) & =\mathbb{E}_{\boldsymbol{x}}\left[\left(\frac{1}{M} \sum_{m=1}^M f_m(\boldsymbol{x})-h(\boldsymbol{x})\right)^2\right] \\ & =\mathbb{E}_{\boldsymbol{x}}\left[\left(\frac{1}{M} \sum_{m=1}^M \epsilon_m(\boldsymbol{x})\right)^2\right] \\ & =\frac{1}{M^2} \mathbb{E}_{\boldsymbol{x}}\left[\sum_{m=1}^M \sum_{n=1}^M \epsilon_m(\boldsymbol{x}) \epsilon_n(\boldsymbol{x})\right] \\ & =\frac{1}{M^2} \sum_{m=1}^M \sum_{n=1}^M \mathbb{E}_{\boldsymbol{x}}\left[\epsilon_m(\boldsymbol{x}) \epsilon_n(\boldsymbol{x})\right], \end{aligned}$
其中 $\mathbb{E}_{\boldsymbol{x}}\left[\epsilon_m(\boldsymbol{x}) \epsilon_n(\boldsymbol{x})\right]$ 为两个不同模型错误的相关性．如果每个模型的错误不相关，即 $\forall m \neq n, \mathbb{E}_{\boldsymbol{x}}\left[\epsilon_m(\boldsymbol{x}) \epsilon_n(\boldsymbol{x})\right]=0$ ．如果每个模型的错误都是相同的，则 $\forall m \neq$ $\epsilon_m(\boldsymbol{x})=\epsilon_n(\boldsymbol{x})$ 。并且，由于 $\epsilon_m(\boldsymbol{x}) \geq 0, \forall m$ ，可以得到
$\overline{\mathcal{R}}(f) \geq \mathcal{R}(F) \geq \frac{1}{M} \overline{\mathcal{R}}(f)$
从上述定理可知，为了得到更好的集成效果，要求每个模型之间具备一定的差异性。并且随着模型数量的增多，其错误率也会下降，并趋近于 0 。 （模型之间具备一定的差异性，这其实是与联邦学习所追求的目标相悖，（单层）联邦学习是追求local model的一致性以减少drift ）

Boosting类方法

为了增加模型之间的差异性，Boosting 类方法是按照一定的顺序来先后训练不同的基模型，每个模型都针对前序模型的错误进行专门训练。根据前序模型的结果，来调整训练样本的权重，从而增加不同基模型之间的差异性。

AdaBoost算法

系统内存在M个基分类器（Base Classifier），共同生成一个加性模型，每个弱分类器对应的权重为 $\alpha_m$
$F(\boldsymbol{x})=\sum_{m=1}^M \alpha_m f_m(\boldsymbol{x})$
Boosting 类方法的关键是如何训练每个弱分类器 $f_m(\boldsymbol{x})$ 及其权重 $\alpha_m$ ．为了提高集成的效果，应当尽量使得每个弱分类器的差异尽可能大．一种有效的算法是采用迭代（sequencial）的方法来学习每个弱分类器，即按照一定的顺序依次训练每个弱分类器．假设已经训练了 $m$ 个弱分类器，在训练第第 $m + 1$ 个弱分类器时，增加已有弱分类器分错样本的权重，使得第 $m + 1$ 个弱分类器＂更关注＂于已有弱分类器分错的样本（由于后面的弱分类器总是专注于前面的弱分类器做的不好之处），每个弱分类器的差异可足够大，最终提升集成分类器的准确率，即AdaBoost在每一轮训练中，增加分错样本的权重，减少分对样本的权重，从而得到一个新的数据分布。

对于二分类： $f_m(x) \in\{+1,-1\}$ :
在这里插入图片描述
上述算法的数学解释：（基分类器权重与样本权重设定）
对于 $F(\boldsymbol{x})=\sum_{m=1}^M \alpha_m f_m(\boldsymbol{x})$ ，其损失函数定义为：
$\mathcal{L}(F) =\exp (-y F(\boldsymbol{x})) =\exp \left(-y \sum_{m=1}^M \alpha_m f_m(\boldsymbol{x})\right),$
其中 $y\in\{+1,-1\}$ 为真实结果。上述函数表明：若某个基分类器 $f_m$ 结果与y异号，则需调整样本权重与分类器权重以降低损失函数值。
假设经过 $m - 1$ 次迭代，得到
$F_{m-1}(\boldsymbol{x})=\sum_{t=1}^{m-1} \alpha_t f_t(\boldsymbol{x})$
则第 $m$ 次迭代的目标是找一个 $\alpha_m$ 和 $f_m(\boldsymbol{x})$ 使得下面的损失函数最小．（变量为 $\alpha_m$ 和 $f_m(\boldsymbol{x})$ ）
$\begin{gathered} \mathcal{L}\left(\alpha_m, f_m(\boldsymbol{x})\right)=\sum_{n=1}^N \exp \left(-y^{(n)}\left(F_{m-1}\left(\boldsymbol{x}^{(n)}\right)+\alpha_m f_m\left(\boldsymbol{x}^{(n)}\right)\right)\right) . \\ \text { 令 } w_m^{(n)}=\exp \left(-y^{(n)} F_{m-1}\left(\boldsymbol{x}^{(n)}\right)\right), \text { 则损失函数可以写为 } \\ \qquad \mathcal{L}\left(\alpha_m, f_m(\boldsymbol{x})\right)=\sum_{n=1}^N w_m^{(n)} \exp \left(-\alpha_m y^{(n)} f_m\left(\boldsymbol{x}^{(n)}\right)\right) . \end{gathered}$
因为 $f_m(\boldsymbol{x}) \in\{+1,-1\}$ ，有
$f_m(\boldsymbol{x})=1-2 I\left(y \neq f_m(\boldsymbol{x})\right)$
其中 $I (x)$ 为指示函数．
将损失函数在 $-\alpha_m y^{(n)} f_m\left(\boldsymbol{x}^{(n)}\right)=0$ 处进行二阶泰勒展开（ $e^x=\sum_{n=0}^{\infty} \frac{1}{n!} x^n=1+x+\frac{1}{2!} x^2+\cdots \in(-\infty,+\infty)$ ），有

$\begin{aligned} \mathcal{L}\left(\alpha_m, f_m(\boldsymbol{x})\right) & =\sum_{n=1}^N w_m^{(n)}\left(1-\alpha_m y^{(n)} f_m\left(\boldsymbol{x}^{(n)}\right)+\frac{1}{2} \alpha_m^2\right) \\ & \propto \sum_{n=1}^N w_m^{(n)}\left(-\alpha_m y^{(n)} f_m\left(x^{(n)}\right)+\frac{1}{2} \alpha_m^2\right) \\ & \propto \alpha_m \sum_{n=1}^N w_m^{(n)} I\left(y^{(n)} \neq f_m\left(\boldsymbol{x}^{(n)}\right)\right) \end{aligned}$
其中，第二步是忽略常数项；第三步是由于：当 $\alpha_m>0$ 时， $\mathcal{L}\left(\alpha_m, f_m(\boldsymbol{x})\right)$ 大小正比于 $y^{(n)} f_m\left(\boldsymbol{x}^{(n)}\right)$ 的符号。即，最优的分类器 $f_m(\boldsymbol{x})$ 为使得在样本权重为 $w_m^{(n)}, 1 \leq n \leq N$ 时的加权错误率最小的分类器．
基于上述损失函数，得到 $f_m(\boldsymbol{x})$ （即 $f_m(\boldsymbol{x})$ 固定后）， $\mathcal{L}\left(\alpha_m, f_m(\boldsymbol{x})\right)$ 可进一步写为：
$\mathcal{L}\left(\alpha_m, f_m(\boldsymbol{x})\right)=\sum_{y^{(n)}=f_m\left(\boldsymbol{x}^{(n)}\right)} w_m^{(n)} \exp \left(-\alpha_m\right)+\sum_{y^{(n)} \neq f_m\left(\boldsymbol{x}^{(n)}\right)} w_m^{(n)} \exp \left(\alpha_m\right) \propto \left(1-\epsilon_m\right) \exp \left(-\alpha_m\right)+\epsilon_m \exp \left(\alpha_m\right)$
其中 $\epsilon_m$ 为分类器 $f_m(\boldsymbol{x})$ 的加权错误率： $\epsilon_m=\frac{\sum_{y^{(n)} \neq f_m\left(\boldsymbol{x}^{(n)}\right)} w_m^{(n)}}{\sum_n w_m^{(n)}}$ 。求上式关于 $\alpha_m$ 的导数并令其为 0 ，得到 $\alpha_m=\frac{1}{2} \log \frac{1-\epsilon_m}{\epsilon_m}$ 。

集成学习与联邦学习的区别

集成学习（Ensemble Learning）的目标是通过多个模型的＂误差互补＂来降低泛化误差，哪怕这些模型是在同一个训练集或相似数据上训练的。差异性有助于＂平均掉＂某些模型的偏差，提升整体表现。

联邦学习的目标是：在保护数据隐私的前提下，训练出一个通用的、集中式的全局模型，这个模型要尽可能适配所有客户端的数据分布。

集成学习通常默认所有模型可访问同一数据分布或样本子集（如Bagging中的bootstrap），模型训练过程独立，但从相似数据中学习，差异来源于训练过程中的随机性。

联邦学习因为假设各用户数据是Non-IID的，即 $D_i \neq D_j$ 。理论上这提供了差异性，但这种差异并不会直接带来好处，反而导致训练不稳定、聚合后性能下降。

在集成学习中，最终模型是 $F(\boldsymbol{x}) = \frac{1}{M} \sum_m f_m(\boldsymbol{x})$ ，是输出级别的平均，哪怕模型结构不同也可以融合输出。对于集成学习来说，如果 $\epsilon_m(\boldsymbol{x})$ 相互不相关，交叉项为 0，那么 $\mathcal{R}(F)$ 会显著低于每个 $\mathcal{R}(f_m)$ 。

联邦学习做的是 $\boldsymbol{w} = \frac{1}{M} \sum_m \boldsymbol{w}_m$ ，这是模型参数级别的平均，假设所有模型结构一致。在联邦学习中，如果你这么“平均”， $\epsilon_m(\boldsymbol{x})$ 并非只是误差，而是在各自数据上的“最优偏移”，这些偏移如果方向不一致（Non-IID引起的局部最优差异），它们不会互相抵消，而可能导致整体误差增加。

进一步：
$\mathcal{R}(F)=\mathbb{E}_{\boldsymbol{X}}\left[\left(\frac{1}{M} \sum_{m=1}^M \epsilon_m(\boldsymbol{x})\right)^2\right]=\frac{1}{M^2} \sum_{m, n=1}^M \mathbb{E}_{\boldsymbol{X}}\left[\epsilon_m(\boldsymbol{x}) \epsilon_n(\boldsymbol{x})\right]$
这可以进一步拆解为：
$\mathcal{R}(F)=\frac{1}{M} \bar{\sigma}^2+\frac{M-1}{M} \bar{\rho}$
其中： $\bar{\sigma}^2$ ：每个模型误差的平均方差； $\bar{\rho}$ ：不同模型之间误差项的平均协方差。

若模型误差互不相关（或低相关性）（ $\bar{\rho} \approx 0$ ），则： $\mathcal{R}(F) \approx \frac{1}{M} \bar{\sigma}^2$ ，即误差与模型数量成反比。

从信息论角度：
假设真实目标是随机变量 $Y$ ，模型输出为 $F (X)$ ，我们从信息论角度看模型“了解”目标 $Y$ 的能力，即互信息 $I (F (X); Y)$ 。
根据信息融合原理，如果多个模型 $f_m(X)$ 是从不同“子空间”或“独立子模型”学习而来，它们提供了关于 $Y$ 的互补信息，则集成输出 $F (X)$ 满足：
$\geq \max _m I\left(f_m(X) ; Y\right)$
特别地，如果每个模型的预测误差是统计独立的，那么最终模型就能“集成多个互不冗余的信息源”，信息量增加，从而提升泛化能力。