假设空间 H \mathcal{H} H关于 D D D的经验Rademacher复杂度反映了假设空间 H \mathcal{H} H的能力。
Rademacher复杂度
VC维是一个与分布无关的视角,而Rademacher复杂度则是与分布有关的。
现在将二分类的标记空间设为 { − 1 , + 1 } \{-1,+1\} {
−1,+1},真实标记 y y y与预测标记 h ( x ) h(\boldsymbol{x}) h(x)的各种组合为表12.2 中的第1、2列。

观察第3列和第4列,有
I ( h ( x ) ≠ y ) = 1 − y ⋅ h ( x ) 2 \begin{align} \mathbb{I} (h(\boldsymbol{x})\neq y)=\frac{1-y\cdot h(\boldsymbol{x})}{2} \tag{12.24} \end{align} I(h(x)=y)=21−y⋅h(x)(12.24)
【西瓜书式(12.36)】的推导过程中用到式(12.24)。 【西瓜书式(12.36)】表明:要使经验误差最小化,就应使式(12.25)最大化。
1 m ∑ i = 1 m y i ⋅ h ( x i ) \begin{align} \frac{1}{m}\sum_{i=1}^my_i\cdot h(\boldsymbol{x}_i) \tag{12.25} \end{align} m1i=1∑myi⋅h(xi)(12.25)
其中 ( y 1 , y 2 , ⋯ , y m ) (y_1, y_2,\cdots,y_m) (y1,y2,⋯,ym)为一组确定的值。
现在设有一组骰子 ( σ 1 , σ 2 , ⋯ , σ m ) ({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m) (σ1,σ2,⋯,σm),每个骰子只有两个面:正面(标记+1)和反面(标记-1),且投掷结果是每面出现的概率相等(均为1/2),让上帝掷这组骰子,每掷一次就有一组确定的值,相当于选出了一组 ( y 1 , y 2 , ⋯ , y m ) (y_1,y_2,\cdots,y_m) (y1,y2,⋯,ym),形成了样例集 D = { ( x i , y i ) } i = 1 m D=\{(\boldsymbol{x}_i,y_i)\}_{i=1}^m D={(xi,yi)}i=1m,就有一个式(12.25),将这些式子统一表达,即
1 m ∑ i = 1 m σ i ⋅ h ( x i ) \begin{align} \frac{1}{m}\sum_{i=1}^m{\sigma}_i\cdot h(\boldsymbol{x}_i) \tag{12.26} \end{align} m1i=1∑mσi⋅h(xi)(12.26)
考察式(12.26),由于 D D D已知,故 x i \boldsymbol{x}_i xi已知,一旦上帝掷好了 σ = ( σ 1 , σ 2 , ⋯ , σ m ) {\sigma}=({\sigma}_1, {\sigma}_2,\cdots,{\sigma}_m) σ=(σ1,σ2,⋯

Rademacher复杂度是评估假设空间能力的一个指标,与经验风险和VC维相关。在二分类问题中,通过分析不同标记和预测的组合,展示了Rademacher复杂度如何从概率角度刻画模型的复杂性。当假设空间只包含一个元素时,复杂度最低;而当假设空间能完全“打散”标记时,复杂度最高。Rademacher复杂度通过期望运算消除随机性,反映了在给定数据集上的模型复杂性。
最低0.47元/天 解锁文章
5352

被折叠的 条评论
为什么被折叠?



