阿里官方的神器，功能太强悍了 !

最新推荐文章于 2025-08-12 11:57:38 发布

原创最新推荐文章于 2025-08-12 11:57:38 发布 · 878 阅读

CC 4.0 BY-SA版权

自从 ChatGPT 火了以后，国内的 AI 大模型也是越来越多，各家都有不同的侧重点，其中，咱们国家队的代表就是阿里的通义千问了。就在最近，通义千问推出了新一代开源模型 Qwen2.5，下面跟大家重点介绍一下这个新模型到底有多牛逼？

Qwen2.5简介

9月19日云栖大会上，发布了通义千问新一代开源模型Qwen2.5，旗舰模型Qwen2.5-72B性能超越Llama 405B，再登全球开源大模型王座。

Qwen2.5支持高达128K的上下文长度，可生成最多8K内容。模型拥有强大的多语言能力，支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 种以上语言。模型能够丝滑响应多样化的系统提示，实现角色扮演和聊天机器人等任务。在指令跟随、理解结构化数据（如表格）、生成结构化输出（尤其是JSON）等方面Qwen2.5都进步明显。

Qwen2.5系列模型在语言模型方面，Qwen2.5开源了7个尺寸，0.5B、1.5B、3B、7B、14B、32B、72B，它们在同等参数赛道都创造了业界最佳成绩，型号设定充分考虑下游场景的不同需求，3B是适配手机等端侧设备的黄金尺寸；32B是最受开发者期待的“性价比之王”，可在性能和功耗之间获得最佳平衡，Qwen2.5-32B的整体表现超越了Qwen2-72B。Qwen2.5-72B模型在MMLU-rudex基准（考察通用知识）、MBPP 基准（考察代码能力）和MATH基准（考察数学能力）的得分高达86.8、88.2、83.1。

Qwen2.5模型详解

1、Qwen2.5性能如何？

相比6月推出的Qwen2，Qwen2.5实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中，开源的Qwen2.5-72B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2.5-72B，整体性能相比Qwen2 又取得了大幅提升！

图说：在MMLU-redux等十多个基准测评中，Qwen2.5-72B表现超越Llama3.1-405B

9月29日，基准测试平台Chatbot Arena日前公布最新大模型盲测榜单，阿里通义千问开源模型Qwen2.5再次闯入全球十强，其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十，居于OpenAI的o1、GPT-4o等模型之后，是得分最高的中国大模型；同天开源的视觉语言模型Qwen2-VL-72B-Instruct闯入Vision榜单第九，略逊于GPT-4o、Gemini-1.5-Pro等闭源模型，是成绩最好的开源模型。