基于任务描述符的终身零样本学习:从监督学习到强化学习的统一框架
在机器学习领域,不同的学习范式如监督学习、强化学习等各有特点。而终身学习则致力于让学习者在面对多个连续任务时,能够利用先前的经验快速学习新任务。本文将深入探讨如何通过任务描述符实现终身零样本学习,以及如何将不同学习范式统一在一个框架下。
1. 学习范式回顾
在深入探讨终身学习之前,我们先简要回顾一下监督学习和强化学习这两种常见的学习范式。
1.1 监督学习
监督学习是一种常见的机器学习范式,其目标是学习一个函数 (f_{\theta}: X \to Y),该函数能够为输入 (X) 分配对应的输出 (y),并能很好地泛化到未见过的观测数据上。在监督学习中,给定一组 (n) 个样本观测值 (X = {x_1, x_2, …, x_n}) 以及对应的标签 (y = {y_1, y_2, …, y_n}),其中 (x \in X \subseteq R^d) 是一个 (d) 维向量,表示单个数据实例,(y \in Y) 是对应的标签。
在回归任务中,标签通常是实数值(即 (Y = R));而在分类任务中,标签是一组离散的类别,例如在二分类任务中,(Y = {+1, -1})。我们假设学习到的模型 (f_{\theta}) 可以由向量 (\theta) 参数化。模型的训练目标是最小化训练数据上模型预测值与给定目标标签之间的平均损失,即:
[
\arg \min_{\theta} \frac{1}{n} \sum_{i=1}^{n} L(f(x_i, \theta), y_i) + R(f_{\theta})
]
其中 (L(\cdot)) 通常
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



