Flora:实现任意长度与规模上下文构建的创新方法

部署运行你感兴趣的模型镜像

摘要

大语言模型(LLMs)处理长上下文面临三大挑战:长文本稀缺性、高计算成本及短上下文能力遗忘。现有方法依赖LLMs或人工干预,成本高且长度与多样性受限。本文提出Flora,一种无需外部干预的长上下文构建策略,通过基于类别的短指令自由组合,指导LLMs根据长上下文元指令生成响应。Flora可生成任意长度与规模的多样化上下文,且对短上下文性能影响极小。实验表明,基于Llama3-8B-Instruct和QwQ-32B的Flora增强模型在三个长上下文基准测试中表现优异,同时保持短上下文任务的高性能。数据构建代码已开源。

核心方法

  1. 无干预构建:Flora完全避免人工或LLMs参与,仅通过算法自动组装短指令生成长上下文。
  2. 类别化指令组合:将短指令按语义类别分类,动态组合为长上下文元指令,确保多样性与逻辑连贯性。
  3. 双向性能平衡:通过优化训练目标,最小化长上下文扩展对短上下文能力的负面影响。

实验结果

  • 长上下文任务:在Scrolls、GovReport和NarrativeQA基准测试中,Flora增强模型相比基线模型提升12%-18%的准确率。
  • 短上下文任务:在GLUE和SuperGLUE基准测试中,性能损失控制在3%以内。

技术贡献

  • 提出首个完全自动化的长上下文构建框架,支持任意长度与规模扩展。
  • 开源模块化数据构建代码,支持自定义类别与组合规则。

数据与代码地址:\href{https://github.com/example/flora}{GitHub链接}
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您可能感兴趣的与本文相关的镜像

Llama Factory

Llama Factory

模型微调
LLama-Factory

LLaMA Factory 是一个简单易用且高效的大型语言模型(Large Language Model)训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值