Long-Short Alignment for Effective Long-Context Modeling in LLMs

论文主要内容与创新点总结

一、主要内容
  1. 研究背景与问题
    大语言模型(LLMs)在长上下文建模中受限于Transformer的固定上下文窗口,尤其是“长度泛化”问题——模型在训练短序列后难以泛化至更长测试序列。现有方法多关注位置编码(PE)设计或模型机制分析,却忽视了模型输出空间的关键作用。

  2. 核心发现与方法

  • 长-短对齐(Long-Short Alignment):通过合成任务(如二进制序列均值预测与长度预测)发现,输出分布的一致性(即不同长度序列的输出分布对齐程度)是影响长度泛化的关键因素。例如,均值预测任务中输出范围固定,泛化性强;而长度预测任务中输出范围随序列长度变化,泛化性差。
  • 长-短失配指标(Long-Short Misalignment):引入对称交叉熵(SCE)量化自然语言任务中不同长度序列的输出分布差异,该指标与长上下文性能强相关(比传统训练损失更具相关性)。
  • 正则化方法:将长-短失配指标作为正则化项融入训练,通过优化输出分布对齐性提升长上下文建模能力。
  1. 实验验证
    在合成任务和自然语言任务(如LongBench-E、BABILong)中验证了方法的有效性。例如,使用该正则化项后,模型在长上下文基准测试中的得分提升显著,且对中间位
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值