12、基于任务描述符的终身零样本学习:从监督学习到强化学习的统一框架

基于任务描述符的终身零样本学习:从监督学习到强化学习的统一框架

在机器学习领域,不同的学习范式如监督学习、强化学习等各有特点。而终身学习则致力于让学习者在面对多个连续任务时,能够利用先前的经验快速学习新任务。本文将深入探讨如何通过任务描述符实现终身零样本学习,以及如何将不同学习范式统一在一个框架下。

1. 学习范式回顾

在深入探讨终身学习之前,我们先简要回顾一下监督学习和强化学习这两种常见的学习范式。

1.1 监督学习

监督学习是一种常见的机器学习范式,其目标是学习一个函数 (f_{\theta}: X \to Y),该函数能够为输入 (X) 分配对应的输出 (y),并能很好地泛化到未见过的观测数据上。在监督学习中,给定一组 (n) 个样本观测值 (X = {x_1, x_2, …, x_n}) 以及对应的标签 (y = {y_1, y_2, …, y_n}),其中 (x \in X \subseteq R^d) 是一个 (d) 维向量,表示单个数据实例,(y \in Y) 是对应的标签。

在回归任务中,标签通常是实数值(即 (Y = R));而在分类任务中,标签是一组离散的类别,例如在二分类任务中,(Y = {+1, -1})。我们假设学习到的模型 (f_{\theta}) 可以由向量 (\theta) 参数化。模型的训练目标是最小化训练数据上模型预测值与给定目标标签之间的平均损失,即:
[
\arg \min_{\theta} \frac{1}{n} \sum_{i=1}^{n} L(f(x_i, \theta), y_i) + R(f_{\theta})
]
其中 (L(\cdot)) 通常

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值