机器学习中的优化与学习任务解析
在机器学习领域,学习过程的优化以及不同学习任务的处理是至关重要的研究方向。下面将详细探讨学习作为优化的相关概念,以及判别式训练和生成式训练的区别,最后对不同的学习任务进行分类和分析。
学习作为优化
在从分布 (P^ ) 中采样数据集时,可能会遇到一些特殊情况。例如,采样得到的数据集在所有实例中具有相同的联合赋值。显然,在这种情况下(假设 (P^ ) 不是退化的),我们无法从这样的数据集中学习到有用的参数。虽然得到这种数据集的概率非常低,但并非为零。因此,我们的分析必须考虑到数据集可能具有高度非代表性的情况,在这种情况下,我们学习到的模型(可能在训练集上表现良好)在期望情况下可能表现不佳。
我们的目标是证明学习过程可能近似正确,即对于大多数训练集 (D),学习过程将返回一个误差较低的模型。具体来说,假设我们使用相对于真实分布的相对熵作为损失函数。设 (P^ _M) 是从 (P^ ) 中独立同分布(IID)采样的大小为 (M) 的数据集 (D) 的分布。现在,假设我们有一个学习过程 (L),给定数据集 (D),它返回一个模型 (M_L(D))。我们希望证明以下形式的结果:
设 (\epsilon > 0) 是我们的近似参数,(\delta > 0) 是我们的置信参数。那么,对于足够大的 (M),我们有:
(P^ _M({D : I_D(P^ || P_{M_L(D)}) \leq \epsilon}) \geq 1 - \delta)
也就是说,对于足够大的 (M),对于从 (P^ ) 中采样的大多数大小为
超级会员免费看
订阅专栏 解锁全文
1764

被折叠的 条评论
为什么被折叠?



