XGen-7B Technical Report

本文是LLM系列文章,针对《XGen-7B Technical Report》的翻译。

摘要

大型语言模型(LLM)已经在各个领域无处不在,改变了我们与信息交互和进行研究的方式。然而,大多数高性能的LLM仍然被限制在专有墙后面,阻碍了科学进步。另一方面,大多数开源LLM在支持更长序列长度方面的能力有限,这是许多需要对输入上下文进行推理的任务的关键要求。为了解决这个问题,我们训练了XGen-7B,这是一系列7B参数模型,序列长度高达8K,最多1.5Ttoken。我们还对公共领域指令数据上的XGen-7B模型进行了微调,创建了它们的指令调优对应物(XGen-7B-Inst)。我们为研究进展和商业应用开源我们的模型。我们对标准基准的评估表明,与最先进的开源LLM相比,XGen-7B模型取得了相当或更好的结果。我们对长序列建模任务的有针对性的评估表明,我们的8K序列模型比2K序列开源LLM更有优势。

1 引言

2 预训练数据

3 训练细节

4 指令调整

5 评估

6 碳足迹

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值