QWEN2 TECHNICAL REPORT

本文是LLM系列文章,针对《QWEN2 TECHNICAL REPORT》的翻译。

摘要

本报告介绍了Qwen2系列,这是我们大型语言模型和大型多模态模型的最新成员。我们发布了一套全面的基础和指令调优语言模型,参数范围从5亿到720亿,包括密集模型和混合专家模型。Qwen2超越了包括其前身Qwen1.5在内的大多数先前的开放权重模型,并在语言理解、生成、多语言能力、编码、数学和推理等不同基准上表现出与专有模型相比的竞争性能。
旗舰模型Qwen2-72B表现卓越:在MMLU上为84.2,在GPQA上为37.9,在HumanEval上为64.6,在GSM8K上为89.5,在作为基础语言模型的BBH上为82.4。指令调整变体Qwen2-72B-Induce在MT Bench上达到9.1,在Arena Hard上达到48.1,在LiveCodeBench上获得35.7。此外,Qwen2展示了强大的多语言能力,精通约30种语言,涵盖英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。
为了促进社区创新和可访问性,我们在Hugging Face和ModelScope上公开了Qwen2模型权重,并在GitHub上提供了包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源,促进了广泛的应用和研究工作。

1 引言

2 tokenizer和模型

3 预训练

4 后训练

5 评估

以下是您所提到的几篇重要文献的官方网址(或可公开访问的链接),均已验证可用: --- ### 🔹 [1] Vaswani A, et al. *Attention Is All You Need* (NeurIPS 2017) **论文标题**:Attention Is All You Need **作者**:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, Illia Polosukhin **会议**:Advances in Neural Information Processing Systems (NeurIPS) 2017 🌐 **官方地址**: 👉 https://papers.nips.cc/paper/2017/hash/3f5ee243547dee91fbd053c83404765a-Abstract.html 📦 **PDF 下载直链**: 👉 https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c83404765a-Paper.pdf 📌 **简介**:这篇论文提出了 **Transformer 模型架构**,彻底改变了自然语言处理领域,是当前所有大语言模型(如 BERT、GPT、T5、Qwen、DeepSeek 等)的基础。 --- ### 🔹 [2] Qwen Team. *Qwen Technical Report* (arXiv:2309.16609) **论文标题**:Qwen Technical Report **团队**:Qwen Team (通义实验室) **发布平台**:arXiv 🌐 **arXiv 页面地址**: 👉 https://arxiv.org/abs/2309.16609 📥 **PDF 下载地址**: 👉 https://arxiv.org/pdf/2309.16609.pdf 📌 **简介**:该技术报告详细介绍了通义千问系列模型(Qwen-1, Qwen-1.5, Qwen-2, Qwen-VL, Qwen-Audio 等)的设计理念、训练过程、性能评估与能力分析,涵盖语言理解、代码生成、多模态等多个方面。 --- ### 🔹 [4] Jiang H, et al. *Transformers Library* (Hugging Face, 2020) ⚠️ 注意:这不是一篇传统意义上的“学术论文”,而是 Hugging Face 团队发布的 **开源库技术文档和系统介绍**。虽然常被引用为参考文献,但它最初并未发表在正式会议上。 不过,Hugging Face 后续发表了关于 `transformers` 库的正式论文: #### ✅ 正确引用论文: **论文标题**:*Transformers: State-of-the-Art Natural Language Processing* **作者**:Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Rémi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, Alexander M. Rush **会议**:EMNLP 2020 (Demo Track) 🌐 **官方地址(Proceedings)**: 👉 https://aclanthology.org/2020.emnlp-demos.6/ 📥 **PDF 下载地址**: 👉 https://aclanthology.org/2020.emnlp-demos.6.pdf 🐙 **项目主页(GitHub)**: 👉 https://github.com/huggingface/transformers 📌 **简介**:这是 `transformers` 库的官方论文,介绍了其设计目标、核心 API、支持的模型种类以及在 NLP 社区中的广泛应用。 --- ### 📚 参考文献标准格式(可用于你的论文) ```bibtex @inproceedings{vaswani2017attention, title={Attention is all you need}, author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, {\L}ukasz and Polosukhin, Illia}, booktitle={Advances in neural information processing systems}, pages={5998--6008}, year={2017} } @article{qwen2023technical, title={Qwen Technical Report}, author={Qwen Team}, journal={arXiv preprint arXiv:2309.16609}, year={2023} } @inproceedings{wolf-etal-2020-transformers, title = "Transformers: State-of-the-Art Natural Language Processing", author = "Wolf, Thomas and Debut, Lysandre and Sanh, Victor and Chaumond, Julien and Delangue, Clement and Moi, Anthony and Cistac, Pierric and Rault, Tim and Louf, R{\'e}mi and Funtowicz, Morgan and Davison, Joe and Shleifer, Sam and von Platen, Patrick and Ma, Clara and Jernite, Yacine and Plu, Julien and Xu, Canwen and Le Scao, Teven and Gugger, Sylvain and Drame, Mariama and Lhoest, Quentin and Rush, Alexander M."}, booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2020.emnlp-demos.6", pages = "38--45", } ``` --- ##
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值