Coursera - 机器学习基石 - 课程笔记 - Week 4

学习的可行性与PAC理论

最新推荐文章于 2025-12-03 08:43:36 发布

原创最新推荐文章于 2025-12-03 08:43:36 发布 · 233 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习

Cousera-课程笔记专栏收录该内容

141 篇文章

订阅专栏

探讨了在未知真实模式的情况下，学习的挑战与可能性。通过Hoffding不等式和PAC理论，解释了如何在有限样本和多个假设中找到最接近真实目标的学习模型。

                    
                        
                    
                    Feasibility of Learning
Learning is Impossible
由于真实的模式fff是未知的，我们很难最终确定ggg是否真的很拟合，甚至可能永远得不到“正确的”答案（控制因素太多）
学习的目的是预测既有数据集以外的内容，如果任何一种可能的假设都能够你和数据集以外的结果，那么相当于“没有学到东西”

Probability to the Rescue
对于推断在数据集之外的未知目标fff，是非常困难的
一种可行思路：样本抽取估计（罐子里拿弹珠模型）
对于实际比率μ\muμ和样本结果比例ν\nuν：
在取足够大的样本量NNN时，二者相差很小：P[∣ν−μ∣>ϵ]≤2exp⁡(−2ϵ2N)\mathbb{P} [|\nu - \mu| \gt \epsilon] \le 2 \exp(-2\epsilon^2N)P[∣ν−μ∣>ϵ]≤2exp(−2ϵ2N)（Hoffding不等式）
二者可能（大概率）近似（存在一个ε）相等（probably approximately correct, PAC）
对任意的NNN和ϵ\epsilonϵ是有效的
因为右侧结果无μ\muμ，因此不需要知道真实比例（以及概率）
如果样本量足够大，我们可以大概率认为可以由ν\nuν推论到μ\muμ


Connection to Learning
类比于从罐子里面拿弹珠
对于一个数据集合（对样本空间的抽样）D\mathcal DD，如果样本空间够大，且每一个样本都是独立同分布的，那么我们可以通过在样本集合上的hhh之表现[h(xn)≠yn][h(\bold x_n) \ne y_n][h(xn​)​=yn​]估计hhh在整个样本空间的表现，即与fff的差距[h(x)≠f(x)][h(\bold x) \ne f(\bold x)][h(x)​=f(x)]
估计假设的效果，对固定的假设hhh，在数据足够大时，Ein−sample(h)≈Eout−of−sample(h)E_{in-sample}(h) \approx E_{out-of-sample}(h)Ein−sample​(h)≈Eout−of−sample​(h)

Connection to Learning
根据Hoffding不等式，坏样本，当前假设下EinE_{in}Ein​和EoutE_{out}Eout​相差很远，且面临多个选择时，会恶化这种情形
坏的数据样本集
对于选择ggg会产生不好的影响
可能存在EinE_{in}Ein​和EoutE_{out}Eout​相差甚远的情形

根据Hoffding不等式，如果有MMM个假设可供选择，那么从样本空间中遇到坏数据的概率上界为2Mexp⁡(−2ϵ2N)2M\exp(-2\epsilon^2N)2Mexp(−2ϵ2N)
只要选择有限，对任意的MMM，NNN，ϵ\epsilonϵ都有效
我们控制MMM有限，NNN足够大，可以保证PAC（可以选择一个EinE_{in}Ein​较小的假设作为最终结果ggg）