本文是LLM系列文章,针对《QWEN TECHNICAL REPORT》的翻译。
QWEN技术报告
摘要
大型语言模型(LLM)彻底改变了人工智能领域,使以前被认为是人类独有的自然语言处理任务成为可能。在本书中,我们将介绍QWEN,这是我们大型语言模型系列的第一部分。QWEN是一个全面的语言模型系列,包含具有不同参数计数的不同模型。它包括QWEN(基础预训练语言模型)和QWEN-CHAT(使用人类对齐技术微调的聊天模型)。基础语言模型在众多下游任务中始终表现出卓越的性能,聊天模型,特别是那些使用人类反馈强化学习(RLHF)训练的聊天模型,具有很强的竞争力。聊天模型具有创建代理应用程序的高级工具使用和规划功能,即使与使用代码解释器等复杂任务的大型模型相比,也展现出令人印象深刻的性能。此外,我们还开发了编码专用模型CODE-QWEN和CODE-QWEN-CHAT,以及基于基础语言模型构建的数学模型MATH-QWEN-CHAT。与开源模型相比,这些模型的性能显著提高,略落后于专有模型。