一、文章主要内容和创新点
主要内容
本文针对长文本处理中LLM(大语言模型)在超长上下文下的性能退化和复杂度问题,提出了一种基于强化学习(RL)的记忆代理框架MemAgent。其核心思路是模仿人类处理长文本的方式:将超长文本分段处理,通过固定长度的记忆模块动态更新关键信息,最终基于记忆生成结果。
MemAgent的工作流程为:将长文本拆分为多个片段,模型逐段读取并通过覆盖策略更新记忆(记忆长度固定),全部片段处理完成后,基于记忆和问题生成最终答案。训练上,基于DAPO算法扩展出Multi-Conv DAPO,将每个独立上下文对话作为优化目标,通过可验证的结果奖励进行强化学习训练。
实验表明,仅在8K上下文窗口(训练数据为32K长度)训练的MemAgent,能在350万token的QA任务中保持性能损失<5%,在512K的RULER测试中准确率达95%以上,且计算复杂度为线性(O(N)),突破了现有长上下文模型的性能和效率瓶颈。
创新点
- 超长文本处理机制:提出通过固定长度记忆模块和分段覆盖策略,使LLM在有限上下文窗口内以线性时间复杂度处理任意长输入,解决了长文本处理的效率瓶颈。
- 强化学习训练方法