- 博客(3)
- 收藏
- 关注
转载 NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA
本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER(Diffusion Actor-Critic with Entropy Regulator),旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程,DACER能够有效地学习多模态分布,使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵,使其难以与最大熵强化学习结合,导致性能不佳。
2025-02-27 10:09:38
13
原创 NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA
本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER(Diffusion Actor-Critic with Entropy Regulator),旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程,DACER能够有效地学习多模态分布,使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵,使其难以与最大熵强化学习结合,导致性能不佳。
2024-12-29 12:14:01
1275
原创 【How to learn AI】
第8章介绍带模型的近似动态规划(ADP)方法,包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。第10章介绍深度强化学习(DRL),即以神经网络为载体的RL,包括神经网络的原理与训练,深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。这玩意儿怎么运行的?可以非常好的学习机器学习基础的内容~ But 说实话机器学习基础的课程一直没有找到好的,现在在上软件学院龙名盛老师的机器学习课程,感觉是目前讲得最好的!的知识,而这些是大一大二的必修课程!
2023-11-11 22:03:45
1509
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人