[机器学习]计算学习理论

最新推荐文章于 2024-07-22 20:10:37 发布

原创最新推荐文章于 2024-07-22 20:10:37 发布 · 3.2k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #计算学习理论 #PAC学习 #VC维

模式识别与机器学习专栏收录该内容

12 篇文章

订阅专栏

本文档记录了《机器学习》第 12 章计算学习理论相关内容

基本概念

计算学习理论的目的

分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果指导算法设计。

泛化误差与经验误差

泛化误差：输入输出映射 $h(\mathcal{X})\mapsto\mathcal{Y}$ 在整个样本空间 $\mathcal{D}$ 上所表现出的误差。

$E(h;\mathcal{D})=P_{x\sim\mathcal{D}}(h(x)\neq y)$

任意两个映射之间的不合： $d(h_1,h_2)=P_{x\sim\mathcal{D}}(h_1(x)\neq h_2(x))$
经验误差：输入输出映射 $h(\mathcal{X})\mapsto\mathcal{Y}$ 在训练数据集 $D$ 上所表现出的误差。

$\hat{E}(h;D)=P_{x\sim D}(h(x)\neq y)$

经验误差为 0 则表示假设与样本空间一致。

由于 $D$ 是 $\mathcal{D}$ 的同分布采样，因此 $h$ 的泛化误差等于经验误差的期望。

常用不等式（P268）

Jesen 不等式
Hoeffding 不等式
McDiarmid 不等式

概率近似正确（Probably Approximately Correct）学习

基本符号

复杂度：size(⋅)
- 概念： $c$ ，从样本空间到标记空间的映射
- 目标概念： $\forall (x,y)\in\mathcal{D},c(x)=y$
- 概念类： $\mathcal{C}$ ，包含目标概念的集合
- 学习算法： $\mathfrak{L}$
- 假设： $h$ ，从样本空间到标记空间的映射
- 假设空间： $\mathcal{H}$ ，给定学习算法包含的所有假设的集合，依赖于学习算法存在
- 置信度： $\delta\in(0,1)$
- 误差参数： $\epsilon\in(0,1)$ ，经验误差的上界，预先设定的学习模型所应满足的误差要求
假设空间的可分性

若目标概念 $c\in\mathcal{H}$ ，则 $\mathcal{H}$ 中存在假设使得所有样本输入的输出与真实标记一致，则称该问题对学习算法 $\mathfrak{L}$ 是可分的（一致的）。

若不存在目标概念 $c\notin\mathcal{H}$ ，则称该问题对学习算法 $\mathfrak{L}$ 是不可分的（不一致的）。

PAC 辨识

对 $0<\epsilon,\delta<1, \forall c\in\mathcal{C},\mathcal{D}$ ，若存在学习算法 $\mathfrak{L}$ 能以至少 $1-\delta$ 的概率学得目标概念 $c$ 的近似 $h\in\mathcal{H}$ ，即：

P(E(h)≤ϵ)≥1−δ

则称该学习算法能从假设空间中辨识概念类 $\mathcal{C}$ 。

PAC 可学习

令 $m$ 是从样本分布空间 $\mathcal{D}$ 中独立同分布采样得到的样本 $x$ 的数目，若存在学习算法 $\mathfrak{L}$ 和多项式函数 $poly()$ ， $\forall m,m\geq poly(1/\epsilon,1/\delta,size(x),size(c))$ ，学习算法 $\mathfrak{L}$ 能从假设空间 $\mathcal{H}$ 中辨识概念类 $\mathcal{C}$ ，则称概念类 $\mathcal{C}$ 对假设空间 $\mathcal{H}$ 而言是 PAC 可学习的。

当 $\mathcal{H=C}$ 时，称恰 PAC 可学习。

PAC 学习算法

若学习算法 $\mathfrak{L}$ 使概念类 $\mathcal{C}$ 是 PAC 可学习的，且运行时间是多项式函数 $poly(1/\epsilon,1/\delta,size(x),size(c))$ ，则称概念类 $\mathcal{C}$ 是高效 PAC 可学习的， $\mathfrak{L}$ 为概念类 $\mathcal{C}$ 的 PAC 学习算法。

样本复杂度

满足 PAC 学习算法 $\mathfrak{L}$ 所需的最小样本数 $m\geq poly(1/\epsilon,1/\delta,size(x),size(c))$ ，称为 $\mathfrak{L}$ 的样本复杂度。

假设空间复杂度

有限假设空间

$|\mathcal{H}|$ 有限时的假设空间。

可分情形

在可分有限假设空间中，一定能从假设空间找到一个假设 $h$ 满足概念要求，即训练集上表现完美，所需的样本数约束条件为：

m≥1ϵ(ln||+ln1δ)

在该约束条件下，假设 $h$ 的泛化误差随着样本数 $m$ 的增加收敛到 0，收敛速率为 $O(\frac{1}{m})$ ，即给定样本数 $m$ 时，学习器的泛化误差下界为 $\frac{1}{m}(\ln|\mathcal{H}|+\ln\frac{1}{\delta})$ 。

不可分情形
- 不可知 PAC 可学习：如果学习算法 $\mathfrak{L}$ 能够学出满足如下约束条件的假设 $h$ ，则称假设空间 $\mathcal{H}$ 是不可知 PAC 学习的。
  
  $P (E (h) - min h' \in  E (h') \leq ϵ) \geq 1 - δ$ $P(E(h)-\min_{h'\in\mathcal{H}}E(h')\leq\epsilon)\geq 1-\delta$
- 高效不可知 PAC 可学习：在不可知 PAC 可学习中，如果学习算法 $\mathfrak{L}$ 的运行时间也是多项式函数 $poly(1/\epsilon,1/\delta,size(x),size(c))$ ，则称假设空间 $\mathcal{H}$ 是高效不可知 PAC 学习的；学习算法 $\mathfrak{L}$ 称为 $\mathcal{H}$ 的高效不可知 PAC 学习算法。
无限假设空间

VC 维

经验风险最小化（Empirical Risk Minimization）原则

令 $h$ 为学习算法 $\mathfrak{L}$ 的输出假设，满足

Ê (h)=minh′∈Ê (h′)

则称 $\mathfrak{L}$ 满足经验风险最小化原则。

增长函数

设假设 $h$ 对训练集 $D$ 中样本的标记结果为：

h|D={(h(x1),(h(x2),...,(h(xm))}

对所有的 $m\in\mathbb{N}$ ，假设空间的增长函数为：

Π=max{x1,x2,...xm}⊆|{(h(x1),(h(x2),...,(h(xm))|h∈}|

表示假设空间对 $m$ 个样本所能赋予标记的最大可能数，该值越大则假设空间的表示能力越强。

对分和打散

尽管假设空间的大小可能是无穷的，但是对于训练集 $D$ 的可能标记结果数是有限的。
- 对分：在二分类问题中，假设空间对训练集的每种标记结果称为对 $D$ 的一种对分。
- 打散：如果假设空间能实现样本集上所有对分，即假设空间的增长函数 $\Pi_{\mathcal{H}}(m)=2^m$ ，则称样本集 $D$ 能被假设空间 $\mathcal{H}$ 打散。
VC 维

假设空间 $\mathcal{H}$ 的 VC 维是能被 $\mathcal{H}$ 打散的最大样本集的大小：

VC()=max{m:Π(m)=2m}=d
- 只要存在大小为 $d$ 的样本集能被假设空间打散即可。
- 不存在大小为 $d+1$ 的样本集能被假设空间打散。
- 分布无关（数据独立）性：VC 维的泛化误差界只与样本数目有关，并且收敛速率为 $O(\frac{1}{\sqrt{m}})$ ，与数据分布 $\mathcal{D}$ 无关。
- 增长函数上界：
  - 对任意 $m\in\mathbb{N}$ ： $\Pi_{\mathcal{H}}(m)\leq\sum_{i=0}^d\binom{m}{i}$
  - $m\geq d$ ： $\Pi_{\mathcal{H}}(m)\leq(\frac{e\cdot m}{d})^d$
- 任何 VC 维有限的假设空间都是（不可知） PAC 学习的。
Rademacher 复杂度?？？

在一定程度上考虑了数据的分布。

稳定性

考察算法在输⼊(训练集)发⽣变化时，输出是否发⽣较⼤的变化。

训练集的两种变化
- 移除： $D^{\setminus i}$
- 替换： $D^i$
损失函数

损失函数刻画了学习算法在训练集上预测标记与真实标记的差别：

l(?D(x),y):×→ℝ+

简记为 $l(\mathfrak{L}_D,z=(x,y))$ 。
- 泛化损失： $l(\mathfrak{L},D)=\mathbb{E}_{x\in\mathcal{X},z={x,y}}[l(\mathfrak{L}_D,z)]$
- 经验损失： $\hat{l}(\mathfrak{L},D)=\frac{1}{m}\sum_{i=1}^ml(\mathfrak{L}_D,z_i)$
- 留一损失： $l_{loo}(\mathfrak{L},D)=\frac{1}{m}\sum_{i=1}^ml(\mathfrak{L}_{D^{\setminus{i}}},z_i)$
均匀稳定性
- β-均匀稳定性：学习算法满足对所有的 i 有 |l(?D,z)−l(?D∖i,z)|≤β
  - 替换： $|l(\mathfrak{L}_D,z)-l(\mathfrak{L}_{D^i},z)|\leq 2\beta$
- 对于损失函数，若学习算法的输出满足经验损失最小化，则称算法满足经验风险最小化。