清华大学智能驾驶课题组(iDLab)在 NeurIPS 2024 发表的最新研究成果《Diffusion Actor-Critic with Entropy Regulator》。该算法创新性地将扩散模型的反向过程作为策略函数,使在线强化学习算法能够产生多模态动作分布。
论文链接:https://arxiv.org/pdf/2405.15177
代码链接:https://github.com/happy-yan/DACER-Diffusion-with-Online-RL
微信推送:https://mp.weixin.qq.com/s/-3yevlQ8VDXrG-nXv9lXHA