论文主要内容与创新点总结
一、主要内容
-
研究背景与问题
大语言模型(LLMs)在长上下文建模中受限于Transformer的固定上下文窗口,尤其是“长度泛化”问题——模型在训练短序列后难以泛化至更长测试序列。现有方法多关注位置编码(PE)设计或模型机制分析,却忽视了模型输出空间的关键作用。 -
核心发现与方法
- 长-短对齐(Long-Short Alignment):通过合成任务(如二进制序列均值预测与长度预测)发现,输出分布的一致性(即不同长度序列的输出分布对齐程度)是影响长度泛化的关键因素。例如,均值预测任务中输出范围固定,泛化性强;而长度预测任务中输出范围随序列长度变化,泛化性差。
- 长-短失配指标(Long-Short Misalignment):引入对称交叉熵(SCE)量化自然语言任务中不同长度序列的输出分布差异,该指标与长上下文性能强相关(比传统训练损失更具相关性)。
- 正则化方法:将长-短失配指标作为正则化项融入训练,通过优化输出分布对齐性提升长上下文建模能力。
- 实验验证
在合成任务和自然语言任务(如LongBench-E、BABILong)中验证了方法的有效性。例如,使用该正则化项后,模型在长上下文基准测试中的得分提升显著,且对中间位

订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



