自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 扩散强化学习SOTA算法DACER技术特点解读 NeurIPS24

这种现象的动力学本质可建模为一类特殊构造的郎之万过程,其核心特征在于去噪神经网络的参数更新方向被约束在Q函数梯度场的上升路径上,这与传统DDPM通过数据分布还原驱动的去噪机制形成根本性区别[4]。值得注意的是,相较于经典郎之万动力学中利用能量函数的导数来学习得分函数[5],最大化Q值的目标函数展现出更优越的全局优化特性——尽管得分函数在多模态场景下具备更强的局部寻优能力,但基于最大化Q值的收敛策略最终能突破局部极值约束,在策略性能上实现显著超越。最后,使用估计的熵来平衡扩散策略在训练过程中的探索与利用。

2025-04-20 13:16:58 1079

转载 NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA

本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER(Diffusion Actor-Critic with Entropy Regulator),旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程,DACER能够有效地学习多模态分布,使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵,使其难以与最大熵强化学习结合,导致性能不佳。

2025-02-27 10:09:38 135

原创 NeurIPS 2024 | DACER:扩散模型与在线强化学习强强联合创造新SOTA

本研究中我们提出了一种基于扩散模型的在线强化学习算法 DACER(Diffusion Actor-Critic with Entropy Regulator),旨在克服传统强化学习方法在策略参数化中使用高斯分布的局限性。通过利用扩散模型的反向去噪过程,DACER能够有效地学习多模态分布,使得创建更复杂的策略并提高策略性能成为可能。一个显著的挑战来自于缺乏解析表达式来确定扩散策略的熵,使其难以与最大熵强化学习结合,导致性能不佳。

2024-12-29 12:14:01 1604

原创 【How to learn AI】

第8章介绍带模型的近似动态规划(ADP)方法,包括无穷时域的ADP、有限时域的ADP、ADP与MPC的联系与区别等。第10章介绍深度强化学习(DRL),即以神经网络为载体的RL,包括神经网络的原理与训练,深度化挑战以及DQN、DDPG、TD3、TRPO、PPO、DSAC等典型深度化算法。这玩意儿怎么运行的?可以非常好的学习机器学习基础的内容~ But 说实话机器学习基础的课程一直没有找到好的,现在在上软件学院龙名盛老师的机器学习课程,感觉是目前讲得最好的!的知识,而这些是大一大二的必修课程!

2023-11-11 22:03:45 2066 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除