清华团队提出RL专用神经网络优化器,性能位居榜首

在人工智能领域,强化学习(RL)一直被视为解决复杂序列决策问题的有力工具。这项技术不仅在电子游戏、棋类智能、机器人控制、自动驾驶等前沿领域大放异彩,还在大语言模型(LLM)的微调、对齐、推理等关键阶段发挥着重要作用。

然而,在深度神经网络作为函数近似器的背景下,RL训练常常表现出显著的不稳定性,面临诸如过拟合、值高估和策略发散等一系列挑战。这些问题不仅影响了RL算法的最终性能,也限制了其在真实物理场景中大规模应用的潜力。

面对这一挑战,清华大学的研究团队提出了RL专用的神经网络优化方法——RAD优化器(Relativistic Adaptive gradient Descent)。相较于9个主流神经网络优化器(包括SGD-M,Adam和AdamW等),RAD优化器在12个测试环境(包括1个CartPole任务、6个MuJoCo任务、4个Atari任务和1个自动驾驶任务)及5种主流RL算法(包括DQN、DDPG、TD3、SAC和ADP)下,综合性能均排名第一。特别在图像类标准测试环境Seaquest任务中,RAD性能达到Adam优化器的2.5倍,得分提升了155.1%。

在这里插入图片描述

神经网络作为RL价值函数和策略函数的核心载体,其训练过程通常依赖于神经网络优化器以实现参数更新。然而,目前主流的神经网络优化器(如SGD-M、Adam和AdamW等)虽然在缓解局部最优和加速收敛方面有所帮助,但其算法设计和参数选择均依赖于人工经验和实用技巧,缺乏对优化动态特性的解释与分析,难以从理论上保障RL训练的稳定性。

研究者从动力学视角出发,将神经网络参数的优化过程建模为多粒子相对论系统状态的演化过程,通过引入狭义相对论的光速最大原理,从理论上抑制了网络参数的异常更新速率,同时提供了各网络参数的独立自适应能力,有力保障了RL训练的长时域稳定性和收敛速率。

神经网络参数优化=动力学系统状态演变

本质上,RL的神经网络优化要求迭代求解以下标准形式的非凸随机优化问题:

在这里插入图片描述

其中, J J J为目标函数, L \mathcal{L} L为损失函数, P \mathcal{P} P为样本 x x x的分布, θ \theta θ为可训练网络参数。然而,该优化过程的稳定性通常难以直接分析,那么是否存在可行的替代方案呢?

研究者提出了一种全新视角,将神经网络参数的离散优化过程对偶为共形哈密顿系统状态的离散演变过程,通过分析和保留动力学系统的关键特征,向神经网络优化过程引入稳定性和收敛性等重要性能。

在这里插入图片描述

共形哈密顿系统(Conformal Hamiltonian system)是一类特殊的能量耗散系统,其哈密顿量(即总能量)和辛形式(即相空间面积)随时间单调收敛,从而使得系统趋向于稳定点。这类系统的正则方程具有特殊的反对称结构,保证了系统的长期稳定性:

在这里插入图片描述

其中 q q q为系统状态, p p p为系统动量, r r r为耗散因子,哈密顿量 H H H由系统动能 T ( p ) T(p) T(p)和系统势能 U ( q ) U(q) U(q)组成,即 H ( q , p ) = T ( p ) + U ( q ) H(q,p)=T(p)+U(q) H(q,p)=T(p)+U(q)。此外,大量研究表明,使用保辛离散方法得到的离散系统能够在长时域下以高精度近似原始连续系统,从而具备后者的稳定性和收敛速度。

这一工作的研究者发现,神经网络的收敛条件与共形哈密顿系统的收敛条件呈现出高度相似性:

1)神经网络收敛条件:目标函数极小且参数更新速度为0,即 ∇ J ( θ ) = 0 \nabla J(\theta) = 0 J(θ)=0 θ ˙ = 0 ; \dot{\theta} = 0; θ˙=0;
2)共形哈密顿系统收敛条件:系统势能极小且系统动量为0,即 ∇ U ( q ) = 0 \nabla U(q) = 0 U(q)=0 p = 0 p = 0 p=0

因此,通过将网络参数 θ \theta θ类比为系统状态 q q q,目标函数 J ( θ ) J(\theta) </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值