Offline： From Novelty to Imitation: Self-Distilled Rewards for Offline Reinforcement Learning

原创已于 2025-09-01 12:54:51 修改 · 294 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #机器学习 #算法 #深度学习

于 2025-09-01 11:53:57 首次发布

强化学习同时被 3 个专栏收录

101 篇文章

订阅专栏

离线强化学习

41 篇文章

订阅专栏

25 篇文章

订阅专栏

Under review for TMLR 2025
离线强化学习 (RL) 旨在从静态数据集中学习有效的策略，而不需要进一步的智能体环境交互。然而，其在实践中的应用经常受到对显式奖励注释的需求的阻碍，这些注释的构建成本可能很高，或者难以追溯获得。为了解决这个问题，我们提出了 ReLOAD (Reinforcement Learning with Offline Reward Annotation via Distillation，即通过蒸馏进行离线奖励注释的强化学习)，这是一个用于离线 RL 的新型奖励注释框架。与依赖复杂对齐程序的现有方法不同，我们的方法采用随机网络蒸馏 (RND)，通过一种简单而有效的嵌入差异度量，从专家演示中生成内在奖励。首先，我们训练一个预测器网络，使其模仿一个固定的目标网络，该目标网络基于专家的状态转换进行嵌入。之后，这些网络之间的预测误差将作为静态数据集中每次转换的奖励信号。这种机制提供了一种结构化的奖励信号，而不需要手工制作的奖励注释。

在这里插入图片描述

method

采用少量专家数据，基于RND网络预训练得到(s,s’)得状态表征差异。其中f是固定参数作为target。这里表明：与专家相似得无奖励标签样本在表征差异上具有相似性。
在这里插入图片描述

因此基于这个差异构建两种结构得奖励函数。
在这里插入图片描述
or

第二种方案经过在walker上的消融实验证明具备稳定性。

伪代码

在这里插入图片描述
文章给出理论性的证明，说明RND与离线下奖励构造目标上的一致性。
另外一篇ICML 2023关于RND的文章，但是关注的是（s,a）,并作为价值函数的的惩罚项来避免估计问题：
Anti-Exploration by Random Network Distillation

本文在openreviwer种的rebuttal也提到了，基于（s,s’）的优势，以及连篇文章的区别。
在这里插入图片描述

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。