机器学习之集成学习-概述篇（一）

钱昱潼

已于 2022-11-07 21:46:42 修改

阅读量515

点赞数 1

分类专栏：机器学习文章标签：集成学习人工智能

于 2022-10-22 12:38:03 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_44172158/article/details/127460094

版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

机器学习之集成学习-概述篇（一）

一、集成学习概述

集成学习：通过构建并结合多个学习器来完成学习任务，有时也被称为分类系统、基于委员会的学习等（引自周志华《机器学习》，俗称西瓜书）。
通俗解释：将多个模型组合在一起，从而产生更强大的的模型，即团结就是力量。

集成学习示意图

集成分为同质和异质，同质集成中的个体学习器称为基学习器，算法称为基学习算法，即集成中只包含同类型的算法，例如：只包含决策树。
异质集成中的个体学习器称为组件学习器，由不同算法组成，例如：同时包含决策树和神经网络。

二、集成学习特点

泛化性。多学习器结合，能获得比单一学习器显著优越的泛化性能。
准确性。要想获得好的集成，个体学习器应好而不同，即个体学习器要有一定的准确性，即学习器不能太坏，并且要有多样性，即学习器间具有差异。

假设集成通过简单投票法给T个分类器，则有超过半数的基分类器正确，则集成分类正确。集成分类器公式如下：

$H(x)=sign(\sum_{i=1}^{T}h_{i}(x))$

假设集成分类器的个体分类器的错误率相互独立，服从二项分布，即:做了T次独立重复实验,每次错误率为p,则每次正确的概率为：

$P(X=k)=\binom{n}{k}(1-p)^{k}(p)^{n-k}$

假定T次实验中一半以上都正确，集成分类器正确，则由Hoeffding（霍夫丁不等式，见下文知识拓展）可知，集成的错误率为：

$\sum_{k=0}^{\left \lfloor T/2 \right \rfloor} \binom{T}{k}(1-p)^{k}p^{T-k}\le exp(-\frac{1}{2}T(1-2p)^{2})$

说明：需要保证一半以上分类器正确，集成分类才算正确，因此最少取floor(T/2)+1个分类器，并求和。

在集成分类器正确的情况下，由霍夫丁不等式知，随着集成个体分类器数目T增大，集成错误率将呈指数下降，最终趋于零。

$exp(-\frac{1}{2}T(1-2p)^{2})$

说明：上述表达式是错误率的上限值，且为递减函数，随着T增大函数值逐渐减小。

结论：通常基学习器误差不会相互独立，个体学习器的准确性与多样性本身存在冲突。准确性高，多样性就低。
好而不同的个体学习器是集成学习的研究核心。

三、集成学习分类

强依赖关系：个体学习器间必须串行生成序列化方法，代表：Boosting。它是一种将弱学习器提升为强学习器的算法，
最终得到一组基学习器的加权结合。

非强依赖关系：个体学习器间可同时生成的并行方法，代表Bagging和随机森林（Random Forest）。Bagging指
的是随机采样出训练集，基于训练集训练出基学习器，并通过投票或者平均得到预测结果的方式。随机森林是以决策
树为学习器构建Bagging基础基础上，进一步在决策树的训练中引入随机属性选择。

四、知识拓展

在概率论中，马尔科夫不等式、霍夫丁不等式和詹森不等式，是机器学习中经常用到的不等式。
1、马尔科夫不等式（Markov’s Inequality）
公式：
$p(x>a)<=\frac{E(x)}{a}$

应用说明：用于估计一个概率的上界，比如你所在班级的数学平均分是60，那么随机选一个学生，其成绩超过的90的概率，不会超过60/90=2/3。

2、霍夫丁不等式（Hoeffding’s Inequality）
公式：

$p(s_{n} -E(s_{n})>=t)<=exp{-\frac{2t^{2}}{\sum_{n}^{i} (b^{i}-a^{i})^{2}}}$

马尔科夫不等式与霍夫丁引理可以推导出霍夫丁不等式。

应用说明：霍夫丁不等式给出了随机变量的和与其期望值偏差的概率上限，一般用于二分类问题的泛化误差上界。

3、詹森不等式（Jensen’s Inequality）
公式：

$E (f (x)) >= f (E (x))$

应用说明:EM算法、KL散度、改进迭代尺度算法。

以上公式证明后续单独进行证明。