该文章提出了一种名为熵正则化激活(ERA) 的新范式,通过特殊设计的输出激活函数约束模型采样熵,在连续控制、大语言模型(LLMs)和图像分类三大领域均实现性能提升,且计算开销低于7%。
一、文章主要内容总结
文章围绕ERA展开理论构建、实例设计与多领域实验验证,核心内容可分为三部分:
-
核心问题与动机
现有熵调控方法存在两大缺陷:一是在强化学习(如SAC)中直接在目标函数添加熵奖励,会扭曲主任务优化目标;二是在LLM对齐等领域采用启发式方法(如clip-higher),缺乏理论保证且仅适用于单一领域。因此需要一种通用、不干扰主目标、有理论支撑的熵约束范式。 -
ERA范式设计
- 核心思想:通过模型输出层的激活函数
g(·)直接约束熵,而非修改损失函数。激活函数将模型原始输出参数z转换为z',确保最终策略的期望熵不低于目标阈值H₀,实现主任务优化与熵约束的完全解耦。 - 多领域实例化:
- 连续控制(如机器人运动):针对有界高斯策略,通过调整标准差
σ补偿边界偏差,保证最终策略熵; - 图像分类(如ResNet-50):针对softmax策略,转换logits以避免模型过度自信;
- 连续控制(如机器人运动):针对有界高斯策略,通过调整标准差
- 核心思想:通过模型输出层的激活函数
订阅专栏 解锁全文
6393

被折叠的 条评论
为什么被折叠?



