切线距离与切线传播:原理、实现与应用
1. 学习函数算法
在分类任务中,除了保留训练集的表示,还可以通过学习一组参数来选择分类函数,这在神经网络、曲线拟合和回归等领域中很常见。
1.1 基本假设与问题
假设所有数据独立地从给定的统计分布 $P$ 中抽取,学习机器由其可以实现的函数集合 $G_w(x)$ 表征,其中 $w$ 是参数向量。目标是找到 $w$ 的值,使得 $G_w$ 能最好地逼近 “正确” 或 “期望” 的标签函数 $F(x)$。可以使用有限的训练数据来帮助找到这个向量,且假设训练集中所有点的正确标签 $F(x)$ 是已知的。例如,$G_w$ 可以是具有权重 $w$ 的神经网络计算的函数,也可以是具有系数 $w$ 的多项式。
然而,在没有额外信息的情况下,找到 $w$ 的值是一个不适定问题,除非参数数量较少和/或训练集规模较大。这是因为训练集无法提供足够的信息来从所有候选的 $w$ 中区分出最佳解决方案。
1.2 正则化的必要性
由于训练集可能无法唯一确定 $w$,许多不同的 $w$ 值可以生成不同的函数 $G_w$,其中一些可能是对 $F$ 的糟糕近似,尽管它们与训练集完全一致。因此,通常会添加 “正则化器” 或额外的约束来限制对可接受的 $w$ 的搜索。例如,可以要求函数 $G_w$ 是 “平滑的”,通过添加约束 $|w|_2$ 应最小化。正则化器应反映 $F$ 的属性,因此依赖于关于待建模函数的先验知识。
1.3 模型选择与 VC 维度
选择一个合适的函数族 $G = {G_w, w \in \Re^q}$ 是一项困难的任务,有时被称为 “模型选择”。如果 $G$
超级会员免费看
订阅专栏 解锁全文
8796

被折叠的 条评论
为什么被折叠?



