本文是LLM系列文章,针对《QWEN2 TECHNICAL REPORT》的翻译。
摘要
本报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令调优语言模型,参数范围从5亿到720亿,包括密集模型和混合专家模型。Qwen2超越了包括其前身Qwen1.5在内的大多数先前的开放权重模型,并在语言理解、生成、多语言能力、编码、数学和推理等不同基准上表现出与专有模型相比的竞争性能。
旗舰模型Qwen2-72B表现卓越:在MMLU上为84.2,在GPQA上为37.9,在HumanEval上为64.6,在GSM8K上为89.5,在作为基础语言模型的BBH上为82.4。指令调整变体Qwen2-72B-Induce在MT Bench上达到9.1,在Arena Hard上达到48.1,在LiveCodeBench上获得35.7。此外,Qwen2展示了强大的多语言能力,精通约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。
为了促进社区创新和可访问性,我们在Hugging Face和ModelScope上公开了Qwen2模型权重,并在GitHub上提供了包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源,促进了广泛的应用和研究工作。