自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 既“安全”又“鲁棒”的强化学习算法统一设计框架

清华大学李升波教授课题组提出了一套统一安全强化学习和鲁棒强化学习的理论框架[3],包括问题描述、迭代求解方法、收敛性分析,以及适用于高维复杂系统的深度强化学习算法。

2025-06-30 22:23:41 498

原创 突破不可导策略的训练难题:零阶优化与强化学习的深度嵌合

清华大学李升波教授课题组提出了完全依赖“零阶梯度”的高性能强化学习算法(Zeroth-Order Actor-Critic, ZOAC),通过实施逐时间步的参数空间加噪探索以及策略参数扰动的优势函数估计,破解了零阶强化学习算法易失稳,难求解的难题,为有限状态机、决策树、规则化控制律等策略的参数优化提供了全新的工具。

2025-06-10 15:00:58 427

转载 清华大学车辆学院团队在强化学习领域取得重要进展

近日,清华大学车辆与运载学院李克强院士、李升波教授团队在强化学习算法设计领域取得重要进展。团队针对工业对象的智能决策与控制需求,推出了DSAC(Distributional Soft Actor Critic)系列强化学习算法,解决了已有方法值函数学习不准、策略性能低下的难题,并于典型基准测试任务中取得了国际领先的SOTA性能。

2025-05-27 15:16:08 27

原创 DSAC-T算法的技术解读:中小模型强化学习算法的最佳选择

清华大学研究团队提出了性能领先的值分布强化学习(Distributional Soft Actor-Critic, DSAC)系列算法,包括2021年提出第一代算法DSAC-v1和2024年提出第二代算法的 DSAC-v2(又称DSAC-T)。该系列算法不再学习单一的期望值,而是直接建模累计折扣奖励的完整概率分布,从而有效缓解过估计问题。尤其是第二代算法DSAC-T,通过对值分布函数更新机制的改进,进一步提升值分布函数学习的效率和稳定性,达到了中小规模强化学习领域的SOTA性能。

2025-04-27 16:34:31 839

原创 对抗强化学习的光滑策略迭代(SPI)架构详解

众所周知, max算子(或者min算子)是贝尔曼方程的核心组件,它的高效求解贯穿了各类强化学习算法的始终,包括PPO、TRPO、DDPG、DSAC、DACER等主流的Actor-Critic(中文译作:“知行互动”)算法。熟悉算法设计的朋友或许存在一个疑问:为什么算法迭代过程总是求解max算子呢?存在不存在一种可能性,“不使用”max算子也能设计稳定收敛的强化学习算法呢?这就是今天为大家介绍光滑策略迭代(SPI,Smooth Policy Iteration)架构

2025-04-18 22:48:34 858

原创 神经网络优化器进化论:从SGD到RAD,读懂AI训练的内功心法

当ChatGPT-o3以近乎博士生水平解答各类难题,当DeepSeek-R1在复杂推理任务中超越顶尖工程师,我们惊叹于大模型“智能涌现”的奇迹,然而鲜有人意识到:这些拥有千亿参数的“数字大脑”,本质上是从初始混沌状态,通过数万小时的反复训练渐渐成形。

2025-03-03 17:17:29 901

原创 清华团队提出RL专用神经网络优化器,性能位居榜首

清华大学的研究团队提出了RL专用的神经网络优化方法——RAD优化器(Relativistic Adaptive gradient Descent)。相较于9个主流神经网络优化器,RAD优化器在12个测试环境及5种主流RL算法下,综合性能均排名第一。特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%。

2024-12-20 21:18:38 806

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除