本文是LLM系列文章,针对《XGen-7B Technical Report》的翻译。
摘要
大型语言模型(LLM)已经在各个领域无处不在,改变了我们与信息交互和进行研究的方式。然而,大多数高性能的LLM仍然被限制在专有墙后面,阻碍了科学进步。另一方面,大多数开源LLM在支持更长序列长度方面的能力有限,这是许多需要对输入上下文进行推理的任务的关键要求。为了解决这个问题,我们训练了XGen-7B,这是一系列7B参数模型,序列长度高达8K,最多1.5Ttoken。我们还对公共领域指令数据上的XGen-7B模型进行了微调,创建了它们的指令调优对应物(XGen-7B-Inst)。我们为研究进展和商业应用开源我们的模型。我们对标准基准的评估表明,与最先进的开源LLM相比,XGen-7B模型取得了相当或更好的结果。我们对长序列建模任务的有针对性的评估表明,我们的8K序列模型比2K序列开源LLM更有优势。