NIPS 2023
paper
code
通过diffusion模型生成海量的合成数据用于RL策略以及价值函数训练,在离线以及在线设定下均表现优异,并且适用于pixel-based的RL设定,同时允许提高UTD进一步提升sample efficiency
Method

算法伪代码如下:

方法很简单,就是利用已有数据训练diffusions model生成数据,然后与原始数据混合采样。在线设定下的原始数据就是环境交互得到的真实数据,离线设定下则就是所提供的数据。
文章分析为何diffusion-based的生成模型对比VAE以及GAN的其他方法有效。原因是该方法生成的数据在保证更好的差异性同时,与真原始数据的MSE较低,也就是说明生成数据更符合环境动力学

海量数据的产生意味着,能够对基于TD3+BC的策略以及价值模型结构进行扩展,实现performance的提升,但是对于IQL以及EDAC提升不明显:

Diffusion模型用于RL训练效果优异

最低0.47元/天 解锁文章
4187

被折叠的 条评论
为什么被折叠?



