三、统计学习理论：指示损失函数上的大数定理

最新推荐文章于 2025-01-06 21:58:35 发布

drawsky

最新推荐文章于 2025-01-06 21:58:35 发布

阅读量577

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/drawsky/article/details/78440896

机器学习专栏收录该内容

12 篇文章

订阅专栏

前面的文章介绍了统计学习的一般模型，并且介绍了关键定理，关键定理中ERP原则一致性与经验风险期望风险的单边收敛是等价的。双边一致收敛比单边一致收敛更严格，后面将介绍双边一致收敛的证明，最后回到单边收敛。

笔者在阅读统计学习理论的时候，充分领略到了Vapnik大师深厚的分析学功底，阅读这种长篇分析学公式是非常困难的，所以本人在想，能不能让证明更加简单点？但是这也不是一个容易的工作。

本文将介绍指示函数集上的一致收敛的条件。
为了区别将前文中的损失函数集 $\{L(x;\theta)|\theta \in \Lambda\}\;$ 改记为指示损失函数集为:
$\qquad \{I(x;\theta)|\theta \in \Lambda\} ；\; I(x;\theta)=0 \;or\; 1$ 。

假设： $P(I(X;\theta)>0)=p$ 则有:

R (θ) = \int I (x, θ) d F (x) = p R e x p (X, θ) = 1 n \sum i = 1 n I (x i, θ) (8) (9)

$\begin{align} & R(\theta) =\int I(x,\theta)dF(x) =p \\ & R_{exp}(X,\theta) =\frac{1}{n}\sum_{i=1}^n I(x_i,\theta) \end{align}$

记 $v_n=R_{exp}(X,\theta)$ , $X$ 代表任意一个样本集，有 $n$ 个样本。

目标是分析下式成立的条件：

P (s u p θ \in Λ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) \to n \to \infty 0 (1)

$P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) \overset{n\rightarrow \infty} \rightarrow 0 \qquad (1)$

最简单的情况
若损失指示函数的参数 $\theta \in \Theta= \{\theta_1,\theta_2,..,\theta_l\}$ 是有限集合。事实上这就是 $m$ 维随机变量上的贝努利大数定理;不过我们这里不关注这个，我们关注的是选定每个 $\theta_i$ ,

P (∣ R (θ i) - R e x p (X, θ i) ∣ \geq ε) (1.1)

$P\big(\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid\ge \varepsilon\big) \qquad (1.1)$
收敛的界，其实在大数定理我们已经知道他的一个界

sn;|s|<1sn;|s|<1 $s^n;|s|<1$ ，下面用到另外一个界。

Chernoff界:
设有 $Y_i,i=1..n$ 独立同分布的随机变量，服从参数为 $p$ 的贝努利分布，则有对任意的 $\varepsilon>0$ 有：

$P (p - v n > ε) P (v n - p > ε) < e - ε 2 n 2 < e - ε 2 n 3 (10) (11)$ $\begin{align} P(p-v_n>\varepsilon) &<e^{\frac{-\varepsilon^2n}{2}} \\P(v_n-p>\varepsilon) &<e^{\frac{-\varepsilon^2n}{3}}\end{align}$

应用Chernoff界，就有：

P (∣ R (θ i) - R e x p (X, θ i) ∣ \geq ε) < 2 e - ε 2 n 2; \forall θ i \in Θ

$P\big(\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid\ge \varepsilon\big) \lt 2e^{\frac{-\varepsilon^2n}{2}};\forall \theta_i \in \Theta$
于是得到下面的不等式：

P (s u p θ \in Θ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) \leq \sum i = 1 m P (∣ R (θ i) - R e x p (X, θ i) ∣ \geq ε) \leq 2 m e - ε 2 n 2 = 2 e (l n ( m ) n - ε 2 2) n (12) (13) (14) (2)

$\begin{align} P\big(\underset{\theta \in \Theta}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) & \le \sum_{i=1}^{m}P\big(\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid\ge \varepsilon\big) \\ & \le 2me^{\frac{-\varepsilon^2n}{2}} \\ & =2e^{(\frac{ln(m)}{n}-\frac{\varepsilon^2}{2})n} \end{align} \qquad (2)$
注意到

0<m<∞0<m<∞ $0<m<\infty$ ，所哟必然有

limn→∞ln(m)n=0limn→∞ln(m)n=0 $\underset{n \rightarrow \infty}{lim}\frac{ln(m)}{n}=0$ ,于是(2)式成立。

定理1：在有限指示损失函数集 $\{L(x;\theta)|\theta \in \Theta\}\;$ 下面的不等式成立：

P (s u p θ \in Θ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) < 2 e (l n ( m ) n - ε 2 2) n

$P\big(\underset{\theta \in \Theta}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) <2e^{(\frac{ln(m)}{n}-\frac{\varepsilon^2}{2})n}$

推论1: 在有限指示损失函数集 $\{L(x;\theta)|\theta \in \Lambda\}\;$ 上，下式恒成立，

l i m n \to \infty P (s u p θ \in Λ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) = 0

$\underset{n \rightarrow \infty}{lim}P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) =0$
由上面的讨论，我们知道了在有限的指示损失函数集上，统计学习模型是ERP原则一致的。

推广思路：
若 $m=\infty$ 将导致 $\underset{n \rightarrow \infty}{lim}\frac{ln(m)}{n}$ 无意义，显然不能直接推广到无限的指示损失函数集上。
不过仔细检查一下上面的证明，就可以发现两件事：

$R(\theta_i)$ 和 $R_{exp}(X,\theta_i)$ 是不太敏感的，对于某些参数表达式 $\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid$ 的值可能相同。
若如上一条所说，我们将可以缩小 $(2)$ 式中的 $m$ ，将这些 $\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid$ 值相同的合并。

从这条思路出发，我们需要考虑一下统计学习模型，参数在什么情况下导致 $\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid$ 的值相同?
假定统计学习模型中样本的分类器是 $l(x,\theta)$ ，且有以下指示损失函数：

I (x, θ) = {0, 1, i f l (x, θ) \geq 0 i f l (x, θ) < 0

$I(x,\theta)= \begin{cases} 0 ,&if \quad l(x,\theta) \ge0\\ 1 ,&if \quad l(x,\theta)<0 \end{cases}$
对于任意的含有

nn $n$ 个样本的集合，最多有

2^{n}

$2^n$ 方中划分方法，记

2X={S|S⊂X}2X={S|S⊂X} $2^X=\{S|S\subset X\}$ ，可以对

XX $X$ 的所有子集

S

$S$ 进行编号。
从样本集划分的角度来看，任意

nn $n$ 个样本，未必能按照全部可能的方式划分开来，二维平面上的直线，最多只能将三个样本完全区分开,四个样本有14种分法而不是16种。这种将样本区分开来的能力，是统计学习模型的一个很重要的参数。记

N^{Λ} (n)

$N^{\Lambda}(n)$ 是模型能将指定样本

HH $H$ 划分开的数量的最大值。

先做些基础准备工作：

定义： $\Lambda({S_i})=\{\theta\mid l(x,\theta)\ge 0,\forall x\in S_i;\quad l(x,\theta)\lt 0,\forall x\notin S_i;\quad \theta \in \Lambda\}$

若某个 $\Lambda({S_i})=\phi$ 则表示统计学习模型不存在这样分割。

由上面的定义可知， $I(x,\theta_1)=I(x,\theta_2)\forall\theta_1, \theta_1\in \Lambda_{S_i} ，x\in X，i=1..N^{\Lambda}(n)$ .

因此属于同一个分割的所有参数，表达式 $\mid R(\theta) -R_{exp}(X,\theta) \mid$ 的值相同，即下面的引理成立:

引理1: 给定样本 $X\;,\forall\theta_{i1},\theta_{i2} \in \Lambda(S_i) ，i=1..N^{\Lambda}(n)$ 下式成立：

∣ R (θ i 1) - R e x p (X, θ i 1) ∣ = ∣ R (θ i 2) - R e x p (X, θ i 2) ∣

$\mid R(\theta_{i1}) -R_{exp}(X,\theta_{i1}) \mid=\mid R(\theta_{i2}) -R_{exp}(X,\theta_{i2}) \mid$

到这儿，我们已经将无限指示损失函数集与样本样本联系起来，得到了 $\mid R(\theta) -R_{exp}(X,\theta) \mid$ 只有限个值。

下面估计无限指示损失函数集上 $(1.1)$ 式的界。
我们仍然可以应用Chernoff界，任意给定的 $\theta^* \in \Lambda$ 有

P (∣ R (θ *) - R e x p (X, θ *) ∣ \geq ε) < 2 e - ε 2 n 2,

$P\big(\mid R(\theta^*) -R_{exp}(X,\theta^*) \mid\ge \varepsilon \big) \lt 2e^{\frac{-\varepsilon^2n}{2}},$
因此有：

P (s u p θ \in Λ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) \leq \sum N Λ (n) i = 1 P (∣ R (θ i) - R e x p (X, θ i) ∣ \geq ε ∣ X), θ i \in Λ (S i) \subset Λ \leq 2 N Λ (n) e - ε 2 n 2 = 2 e x p ((l n ( N Λ ( n ) ) n - ε 2 2) n) (3)

$\begin{array}{1} P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid \ge \varepsilon \big) \\ \qquad \le \sum_{i=1}^{N^{\Lambda}(n)}P\big(\mid R(\theta_i) -R_{exp}(X,\theta_i) \mid\ge \varepsilon \; \mid X\big) ,\theta_i \in \Lambda({S_i}) \subset \Lambda \\ \qquad \le 2N^{\Lambda}(n)e^{\frac{-\varepsilon^2n}{2}} \\ \qquad =2exp{\bigg(\big(\frac{ln\big(N^{\Lambda}(n)\big)}{n}-\frac{\varepsilon^2}{2}\big)n\bigg)} \end{array} \qquad (3)$
记：

HΛvc(n)=ln(NΛ(X))HvcΛ(n)=ln(NΛ(X)) $H_{vc}^{\Lambda}(n)=ln\big(N^{\Lambda}(X)\big)$ ,

HΛvc(n)HvcΛ(n) $H_{vc}^{\Lambda}(n)$ 在文献中称为VC熵,

(3)(3) $(3)$ 可以表示为：

P (s u p θ \in Θ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) \leq 2 e x p ((H Λ v c ( n ) n - ε 2 2) n) (4)

$P\big(\underset{\theta \in \Theta}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid \ge \varepsilon \big)\le 2exp{\bigg(\big(\frac{H_{_{vc}}^{\Lambda}(n)}{n}-\frac{\varepsilon^2}{2}\big)n\bigg)} \qquad (4)$

上面的讨论实际上证明了下面的定理：
定理2：在无穷指示损失函数集 $\{L(x;\theta)|\theta \in \Lambda\}\;$ 下面的不等式成立：

$P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) <2exp{\bigg(\big(\frac{H_{vc}^{\Lambda}(n)}{n}-\frac{\varepsilon^2}{2}\big)n\bigg)}$

推论2: 在无穷指示损失函数集 $\{L(x;\theta)|\theta \in \Lambda\}\;$ 上，下式：

l i m n \to \infty P (s u p θ \in Λ ∣ R (θ) - R e x p (X, θ) ∣ \geq ε) = 0

$\underset{n \rightarrow \infty}{lim}P\big(\underset{\theta \in \Lambda}{sup}\mid R(\theta) -R_{exp}(X,\theta) \mid\ge \varepsilon\big) =0$
成立的充分条件是：

limn→∞HΛvc(n)n=0limn→∞HvcΛ(n)n=0 $\underset{n \rightarrow \infty}{lim}\frac{H_{vc}^{\Lambda}(n)}{n}=0$

写一段废话
这个结论与Vapnik大师在统计学习理论书中略有不同，Vapvik的界是： $2exp{\bigg(\big(\frac{H_ann^{\Lambda}(2n)}{n}-\frac{\varepsilon^2}{2}\big)n\bigg)}$ ，其中 $H_{ann}^{\Lambda}(2n)$ 是退火熵，而且有 $H_{ann}^{\Lambda}(2n)<H_{vc}^{\Lambda}(2n)$ ，但是同时又有： $H_{vc}^{\Lambda}(n)<H_{vc}^{\Lambda}(2n)$ ，那个结论更好难分清楚。

不过要想弄清楚增长函数的性质，Vapnik大师的在书里给出了证明，其中用到了退火熵。

话又说回来，很多时候，想读懂一本书，要抽出其主线，把主线弄清楚，其余内容容易把我们引入歧途。此系列的博客其实只想弄清楚期望风险与经验风险双边一致的证明过程，也就是读懂只是想看懂泛函上的大数定理，其他的不重要。