63、机器学习中的泛化边界:原理与应用

机器学习中的泛化边界:原理与应用

1. 泛化与假设的基本概念

在机器学习领域,假设(hypothesis)是一个核心概念。假设 $h$ 是一个将实例映射为真或假的谓词。若 $h(x)$ 为真,则表示 $x$ 被假设属于正在学习的目标概念。假设之间存在一般性的比较关系,假设 $h_1$ 比 $h_2$ 更一般或相等,意味着 $h_1$ 至少覆盖与 $h_2$ 相同数量的示例,即 $h_1 \geq h_2$ 当且仅当 $(\forall x)[h_1(x) \rightarrow h_2(x)]$。若 $h_1 \geq h_2$ 且 $h_2 \ngeq h_1$,则 $h_1$ 严格比 $h_2$ 更一般。这种一般性排序与包含关系密切相关。

2. 泛化边界的定义与动机

2.1 泛化边界的定义

在统计机器学习理论中,泛化边界(generalization bound),更准确地说是泛化误差边界,是关于学习算法或一类算法预测性能的陈述。学习算法将有限的带标签实例训练样本作为输入,输出关于所有实例标签的假设,包括可能未出现在训练样本中的实例。假设带标签实例从某个固定分布中抽取,假设的质量可以用其风险(risk)来衡量,即与分布的不兼容性。学习算法的性能可以通过随机生成训练样本时其假设的期望风险来表示。泛化边界是一个定理,对于任何分布都成立,它表明在高概率下,将学习算法应用于随机抽取的样本将得到一个风险不大于某个值的假设。这个边界值通常取决于训练样本的大小、假设在训练样本上的风险的经验评估以及学习算法可以输出的预测器类的“丰富度”或“容量”。

2.2 动机与背景

为了更好地理解泛化边界的动机,我们来看一个电子邮件分

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值