经验风险最小化这节课的内容全是算法,最终推导出了一个可供我们定性分析模型复杂度和所需最少训练样本数的关系的结论。
首先定义 ϵ^(h) 定义为m个样本的平均误差,又叫训练误差,即 ϵ^(hθ)=1m∑i=1kI{
hθ(xi)≠yi}
定义 ϵ(h) 为某一个模型分类误差,又叫泛化误差,即 ϵ(h)=Px,y−D(h(x)≠y)
定义 h^ 为训练误差最小的模型
定义 θ^ 为训练误差最小的模型的参数
==============================hoeffding不等式======================
hoeffding不等式: 令 Z1,Z2,...,Zm 为 m 个独立同分布的服从伯努利分布的变量,且 P(Zi=1)=ϕ,P(Zi=0)=1−ϕ 则有
P(|ϕ^−ϕ|>γ)<2exp(−2γ2m)
此不等式有一个直观的理解:如果把 ϕ^ 的分布曲线画在二维坐标系中,会得到一个钟形曲线,类似于高斯分布的曲线,其中期望值是 ϕ ,而 ϕ