阿里又开源了,超长上下文大模型

大家好,我是Ai学习的老章

阿里又开源新模型了,这次是通义千问文档团队带来的 QwenLong-L1-32B——首个通过强化学习训练、专为长上下文推理设计的大语言模型。

解决的问题是:

大型推理模型(LRMs)通过强化学习(RL)展现出强大的推理能力,但局限于短上下文推理任务,这个 QwenLong-L1 框架,通过渐进式上下文扩展将短上下文 LRMs 适配至长上下文场景。

效果:

在七个长上下文文档问答基准测试上的实验表明,QwenLong - L1 - 32B 优于 OpenAI - o3 - miniQwen3 - 235B - A22B 等旗舰大推理模型,性能与 Claude - 3.7 - Sonnet - Thinking 相当,在当前最先进的大推理模型中表现领先。

框架通过强化学习训练中的渐

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值