QWEN2 TECHNICAL REPORT

UnknownBody

已于 2024-11-19 16:24:50 修改

阅读量669

点赞数 14

分类专栏： LLM Daily Technical Report 文章标签：语言模型人工智能

于 2024-07-23 11:15:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/140630536

版权

LLM Daily 同时被 2 个专栏收录

1277 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

Technical Report

24 篇文章

订阅专栏

本文是LLM系列文章，针对《QWEN2 TECHNICAL REPORT》的翻译。

QWEN2技术报告

摘要
1 引言
2 tokenizer和模型
3 预训练
4 后训练
5 评估
6 结论

摘要

本报告介绍了Qwen2系列，这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令调优语言模型，参数范围从5亿到720亿，包括密集模型和混合专家模型。Qwen2超越了包括其前身Qwen1.5在内的大多数先前的开放权重模型，并在语言理解、生成、多语言能力、编码、数学和推理等不同基准上表现出与专有模型相比的竞争性能。
旗舰模型Qwen2-72B表现卓越：在MMLU上为84.2，在GPQA上为37.9，在HumanEval上为64.6，在GSM8K上为89.5，在作为基础语言模型的BBH上为82.4。指令调整变体Qwen2-72B-Induce在MT Bench上达到9.1，在Arena Hard上达到48.1，在LiveCodeBench上获得35.7。此外，Qwen2展示了强大的多语言能力，精通约30种语言，涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等，突显了其多功能性和全球影响力。
为了促进社区创新和可访问性，我们在Hugging Face和ModelScope上公开了Qwen2模型权重，并在GitHub上提供了包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源，促进了广泛的应用和研究工作。

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。