ENTROPY REGULARIZING ACTIVATION: BOOSTING CONTINUOUS CONTROL, LARGE LANGUAGE MODELS, AND IMAGE CLASS

该文章提出了一种名为熵正则化激活(ERA) 的新范式,通过特殊设计的输出激活函数约束模型采样熵,在连续控制、大语言模型(LLMs)和图像分类三大领域均实现性能提升,且计算开销低于7%。

一、文章主要内容总结

文章围绕ERA展开理论构建、实例设计与多领域实验验证,核心内容可分为三部分:

  1. 核心问题与动机
    现有熵调控方法存在两大缺陷:一是在强化学习(如SAC)中直接在目标函数添加熵奖励,会扭曲主任务优化目标;二是在LLM对齐等领域采用启发式方法(如clip-higher),缺乏理论保证且仅适用于单一领域。因此需要一种通用、不干扰主目标、有理论支撑的熵约束范式。

  2. ERA范式设计

    • 核心思想:通过模型输出层的激活函数g(·)直接约束熵,而非修改损失函数。激活函数将模型原始输出参数z转换为z',确保最终策略的期望熵不低于目标阈值H₀,实现主任务优化与熵约束的完全解耦。
    • 多领域实例化
      • 连续控制(如机器人运动):针对有界高斯策略,通过调整标准差σ补偿边界偏差,保证最终策略熵;
      • 图像分类(如ResNet-50):针对softmax策略,转换logits以避免模型过度自信;
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值