(斯坦福机器学习笔记)之经验风险最小化

最新推荐文章于 2024-03-05 19:11:34 发布

万德1010

最新推荐文章于 2024-03-05 19:11:34 发布

阅读量1.6k

点赞数

分类专栏：机器学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_32231743/article/details/54906794

版权

经验风险最小化这节课的内容全是算法，最终推导出了一个可供我们定性分析模型复杂度和所需最少训练样本数的关系的结论。
首先定义 $\hat{\epsilon}(h)$ 定义为m个样本的平均误差,又叫训练误差，即 $\hat{\epsilon}(h_{\theta})=\frac{1}{m}\sum\limits_{i=1}^{k}I\{h_{\theta}(x^i)\neq y^i\}$
定义 ${\epsilon}(h)$ 为某一个模型分类误差，又叫泛化误差，即 ${\epsilon}(h)=P_{x,y - D}(h(x)\neq y)$
定义 $\hat h$ 为训练误差最小的模型
定义 $\hat \theta$ 为训练误差最小的模型的参数

==============================hoeffding不等式======================
hoeffding不等式: 令 $Z_1,Z_2,...,Z_m$ 为 m 个独立同分布的服从伯努利分布的变量,且 $P(Z _i = 1) = \phi, P(Z_ i = 0) = 1 − \phi$ 则有

P (| ϕ^- ϕ | > γ) < 2 e x p (- 2 γ 2 m)

$P(|\hat \phi-\phi|>\gamma)< 2exp(-2\gamma^2m)$
此不等式有一个直观的理解：如果把

ϕ^ $\hat\phi$ 的分布曲线画在二维坐标系中，会得到一个钟形曲线，类似于高斯分布的曲线，其中期望值是

ϕ $\phi$ ，而

ϕ

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。