自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

weixin_40495976的博客

原创扩散强化学习SOTA算法DACER技术特点解读 NeurIPS24

这种现象的动力学本质可建模为一类特殊构造的郎之万过程，其核心特征在于去噪神经网络的参数更新方向被约束在Q函数梯度场的上升路径上，这与传统DDPM通过数据分布还原驱动的去噪机制形成根本性区别[4]。值得注意的是，相较于经典郎之万动力学中利用能量函数的导数来学习得分函数[5]，最大化Q值的目标函数展现出更优越的全局优化特性——尽管得分函数在多模态场景下具备更强的局部寻优能力，但基于最大化Q值的收敛策略最终能突破局部极值约束，在策略性能上实现显著超越。最后，使用估计的熵来平衡扩散策略在训练过程中的探索与利用。

2025-04-20 13:16:58 1079

转载 NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA

本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER（Diffusion Actor-Critic with Entropy Regulator），旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程，DACER能够有效地学习多模态分布，使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵，使其难以与最大熵强化学习结合，导致性能不佳。

2025-02-27 10:09:38 135

原创 NeurIPS 2024 | DACER：扩散模型与在线强化学习强强联合创造新SOTA

本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER（Diffusion Actor-Critic with Entropy Regulator），旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程，DACER能够有效地学习多模态分布，使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵，使其难以与最大熵强化学习结合，导致性能不佳。

2024-12-29 12:14:01 1604

原创【How to learn AI】

第8章介绍带模型的近似动态规划（ADP）方法，包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。第10章介绍深度强化学习（DRL），即以神经网络为载体的RL，包括神经网络的原理与训练，深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。这玩意儿怎么运行的？可以非常好的学习机器学习基础的内容~ But 说实话机器学习基础的课程一直没有找到好的，现在在上软件学院龙名盛老师的机器学习课程，感觉是目前讲得最好的！的知识，而这些是大一大二的必修课程！

2023-11-11 22:03:45 2066 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

唧唧歪歪就爱下资料

博客等级

码龄8年

3
原创

63
点赞

118
收藏

48
粉丝

关注

私信

最新评论

【How to learn AI】
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/617562303。

提示

确定要删除当前文章？

取消删除