offline meta RL | 论文速读记录



目录
  • FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization
  • Unsupervised Behavior Extraction via Random Intent Priors
  • Offline Meta Reinforcement Learning with In-Distribution Online Adaptation


FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization

  • arxiv:https://arxiv.org/abs/2010.01112
  • GitHub:https://github.com/LanqingLi1993/FOCAL-latest
  • 来源:ICLR 2021,好像是 offline meta-RL 的经典文章。

Unsupervised Behavior Extraction via Random Intent Priors

  • arxiv:https://arxiv.org/abs/2310.18687
  • 来源:师兄的工作。感谢师弟的讲解。
  • 参考博客:直接看这个好了,优快云 | 【论文阅读笔记】UBER:用随机意图从无奖励数据中提取有用行为

主要内容:

  • setting:我们拿到了 single-task 的没有 reward 的 offline 数据集,现在想基于这个数据集,学出来可以做相关 task 的策略。
  • method:直接给这个数据集标注 N 个随机 reward,然后训出来 N 个策略,最后使用 PEX 方法进行 offline-to-online。
  • 理论(根据印象 可能有幻觉):
    • Proposition 4.1 指的是,给定一个 policy,总能构造出来一个 reward,使得这个 policy 是这个 reward 下的最优 policy 之一。
    • Theorem 4.2 指的是,只要目标行为在数据集中有较好的覆盖,我们就能有效地学习它。使用大小为 N 的 offline dataset,这样学出来的最好性能与 optimal policy 的差距,可以被 N bound 住。使用了 linear MDP 和 PEVI 那一套,我不懂这些理论。
    • Theorem 4.3 好像指的是,UBER 使用的构造 random reward 的方法可以离 true reward 足够近,是使用岭回归(ridge regression)来证明的,岭回归 我也不懂。
  • 实验:做了 d4rl 和 metaworld。还没仔细看。搬运参考博客的内容:

结果 1:随机意图确实产生多样且高质量行为。实验显示,UBER提取的行为策略:

  • 性能超越原始数据:特别是在原始数据质量不高时
  • 分布更加多样:回报分布的熵值显著高于原始数据集和行为克隆方法

结果 2:在线学习加速显著。在Mujoco运动任务中,UBER相比基线方法:

  • 学习速度更快:在相同环境步数下获得更高回报
  • 最终性能更好:在多数任务中达到或接近专家水平

结果3:跨任务迁移能力。在 Meta-World 的多任务实验中,UBER 学到的行为策略能够成功迁移到不同的下游任务,证明了其跨任务泛化能力。可能的原因是,随机奖励产生了通用运动原语(如"接近物体"、“精确控制末端执行器”),这些原语在不同任务间可迁移。

Offline Meta Reinforcement Learning with In-Distribution Online Adaptation

  • arxiv:https://arxiv.org/abs/2305.19529
  • 来源:师弟推荐的工作。感谢师弟的讲解。
  • 参考博客:直接看这个好了,【论文阅读笔记】IDAQ:离线元强化学习中的分布内在线适应
  • (就算有博客,也还是看不太懂,一是不太了解 multi-task 的具体 setting,二是不太能 get 到 offline 他们讲的 distribution shift 故事…… 找时间好好学一下,可能先看看 focal
### 离线强化学习简介 离线强化学习(Offline Reinforcement Learning),也称为批处理强化学习,是指在不与环境进一步交互的情况下仅依赖预先收集的数据集来改进或评估策略的学习过程[^3]。这种方法特别适用于那些实际环境中试验成本高昂、风险大或是不可重复的情况。 #### 数据的重要性 为了使高容量模型有意义并从中获益,必须在大型和多样化的真实世界数据集上进行训练;相比之下,小型且单一的数据集无法充分利用这类复杂模型的能力。这表明,在构建有效的离线RL解决方案时,获取高质量的静态数据至关重要。 ### 方法论概述 针对如何有效地利用已有数据优化决策制定流程这一挑战,研究者们提出了多种技术手段: - **早期停止机制**:开发简单而高效的提前终止算法有助于防止过拟合现象的发生,从而提高泛化性能[^1]。 - **技能正则化任务分解**:对于多任务场景下的离线增强型学习而言,采用特定技巧对目标任务加以拆解能够促进各子任务间知识迁移的同时保持个体特性[^2]。 - **演示辅助学习**:通过引入专家示范样本作为补充资源,可以在初始化阶段设定合理的行为模式框架,并以此为基础调整奖励函数的设计方向以及扩展可用实例的数量范围[^4]。 ```python import numpy as np def offline_policy_evaluation(data_set, policy_function): """ 使用预存的数据集评估固定策略的表现 参数: data_set (list): 预先采集的状态动作回报三元组列表 [(state, action, reward)] policy_function (callable): 待评价的目标策略 返回: float: 平均累积折扣回报估计值 """ gamma = 0.95 # 折扣因子 total_return = [] for episode in data_set: Gt = 0 t = len(episode)-1 while t >= 0: state_t, _, reward_tp1 = episode[t] if policy_function(state_t) == episode[t][1]: Gt += reward_tp1 * pow(gamma, abs(t)) else: break t -= 1 total_return.append(Gt) return np.mean(total_return) ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值