Rademacher复杂度

本文探讨了核方法中Rademacher复杂度的作用,包括其全球和局部版本,以及它们在多标签学习中的应用。通过具体例子展示了如何估算Rademacher复杂度。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

核方法(Kernel method)通常需要选取可函数及其超参数的取值。重采样(如: K-fold cross validation 和 Bootstrap)可以处理这个问题,但是通常很耗时。全局Rademacher复杂度和局部Rademacher复杂度是两个测量假设空间复杂度的量。Rademacher复杂度在多标签学习里已经有一些成果,感兴趣的读者可以自行查阅这方面的文献。

Rademacher 复杂度

它的官方定义为:Rn(H)=Esup⁡h∈H2n∑i=1nσil(h(Xi,Yi))R_{n}(\mathcal{H})=\mathbb{E}\sup_{h\in \mathcal{H}}\frac{2}{n}\sum_{i=1}^{n}\sigma_{i}l(h(X_{i},Y_{i}))Rn(H)=EsuphHn2i=1nσil(h(Xi,Yi)),

这就是所谓的Global Rademacher复杂度了, 它的经验版本为:

Rn^(H)=Eσsup⁡h∈H2n∑i=1nσil(h(Xi,Yi))\hat{R_{n}}(\mathcal{H})=\mathbb{E}_{\sigma}\sup_{h\in \mathcal{H}}\frac{2}{n}\sum_{i=1}^{n}\sigma_{i}l(h(X_{i},Y_{i}))Rn^(H)=EσsuphHn2i=1nσil(h(Xi,Yi)).

以下是经典结果: 对于损失函数l:X×Y→[0,1]l:X\times Y \to [0,1]l:X×Y[0,1],任意的假设hhh,以下不等式以概率 ≥1−2e−x\geq 1-2e^{-x}12ex成立:

L(h)≤Ln(h)+Rn^(H)+3x2nL(h)\leq L_{n}(h)+\hat{R_{n}}(\mathcal{H})+3\sqrt{\frac{x}{2n}}L(h)Ln(h)+Rn^(H)+32nx .

local Rademacher复杂度经典结果为:
H^r,a,x,n={h∣h∈H,L^n2≤1α2(3r+x2n)}\hat{\mathcal{H}}_{r,a,x,n}=\{h|h\in \mathcal{H},\hat{L}^{2}_{n}\leq \frac{1}{\alpha^2}(3r+\sqrt{\frac{x}{2n}})\}H^r,a,x,n={hhH,L^n2α21(3r+2nx)}, r^n\hat{r}_{n}r^n为子根函数

ψ^n(r)=sup⁡α∈(0,1]αR^n(H^r,a,x,n)+2xn\hat{\psi}_{n}(r)=\sup_{\alpha \in (0,1]}\alpha \hat{R}_{n}(\hat{\mathcal{H}}_{r,a,x,n})+\sqrt{\frac{2x}{n}}ψ^n(r)=supα(0,1]αR^n(H^r,a,x,n)+n2x

的固定点,对于损失函数l:X×Y→[0,1]l:X\times Y \to [0,1]l:X×Y[0,1],任意的假设hhh,以下不等式以概率 ≥1−3e−x\geq1-3e^{-x}13ex成立:

L(h)≤min⁡K>1[KK−1L^n(h)+Kr^n]+2x2nL(h)\leq \min_{K>1}[\frac{K}{K-1}\hat{L}_{n}(h)+K\hat{r}_{n}]+2\sqrt{\frac{x}{2n}}L(h)minK>1[K1KL^n(h)+Kr^n]+22nx .

估算Example

Example 1
H={h∣h(X)=&lt;W,ϕ(X)&gt;,∣∣W∣∣≤H}\mathcal{H}=\{h| h(X)=&lt;W,\phi(X)&gt;,||W||\leq H\}H={hh(X)=<W,ϕ(X)>,WH},则
一方面,
Rn^(H)≤Hn∑i=1nλi=Hn∑i=1nQi,i\hat{R_{n}}(\mathcal{H})\leq\frac{H}{n}\sqrt{\sum_{i=1}^{n}\lambda_{i}}=\frac{H}{n}\sqrt{\sum_{i=1}^{n}Q_{i,i}}Rn^(H)nHi=1nλi=nHi=1nQi,i;
另一方面,
Rn^(H)≥H2n∑i=1nλi=H2n∑i=1nQi,i\hat{R_{n}}(\mathcal{H})\geq\frac{H}{\sqrt{2}n}\sqrt{\sum_{i=1}^{n}\lambda_{i}}=\frac{H}{\sqrt{2}n}\sqrt{\sum_{i=1}^{n}Q_{i,i}}Rn^(H)2nHi=1nλi=2nHi=1nQi,i.

而且,当 ∣∣ϕ(X)∣∣≤1||\phi(X)||\leq 1ϕ(X)1时, 以下不等式以概率≥1−2e−x\geq 1-2e^{-x}12ex成立:

LH(h)≤LT,n(h)+Hn∑i=1nλi+3x2nL_{H}(h)\leq L_{T,n}(h)+\frac{H}{n}\sqrt{\sum_{i=1}^{n}\lambda_{i}}+3\sqrt{\frac{x}{2n}}LH(h)LT,n(h)+nHi=1nλi+32nx .

Example 2
H={h∣h(X)=&lt;W,ϕ(X)&gt;,∣∣W∣∣≤2H,∣∣ΦW∣∣2≤c2}\mathcal{H}=\{h| h(X)=&lt;W,\phi(X)&gt;,||W||\leq 2H, ||\Phi W||^2\leq c_{2}\}H={hh(X)=<W,ϕ(X)>,W2H,ΦW2c2},则
一方面,
Rn^(H)≤2H∑i=1nmin⁡[c24,λi]\hat{R_{n}}(\mathcal{H})\leq 2H\sqrt{\sum_{i=1}^{n}\min[\frac{c_{2}}{4},\lambda_{i}]}Rn^(H)2Hi=1nmin[4c2,λi],
另一方面,
Rn^(H)≥c3H∑i=1nmin⁡[c24,λi]\hat{R_{n}}(\mathcal{H})\geq c_{3}H\sqrt{\sum_{i=1}^{n}\min[\frac{c_{2}}{4},\lambda_{i}]}Rn^(H)c3Hi=1nmin[4c2,λi].

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值