阿里官方的神器,功能太强悍了 !

自从 ChatGPT 火了以后,国内的 AI 大模型也是越来越多,各家都有不同的侧重点,其中,咱们国家队的代表就是阿里的通义千问了。就在最近,通义千问推出了新一代开源模型 Qwen2.5,下面跟大家重点介绍一下这个新模型到底有多牛逼?

1

Qwen2.5简介

9月19日云栖大会上,发布了通义千问新一代开源模型Qwen2.5,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。

Qwen2.5支持高达128K的上下文长度,可生成最多8K内容。模型拥有强大的多语言能力,支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 种以上语言。模型能够丝滑响应多样化的系统提示,实现角色扮演和聊天机器人等任务。在指令跟随、理解结构化数据(如表格)、生成结构化输出(尤其是JSON)等方面Qwen2.5都进步明显。

Qwen2.5系列模型在语言模型方面,Qwen2.5开源了7个尺寸,0.5B、1.5B、3B、7B、14B、32B、72B,它们在同等参数赛道都创造了业界最佳成绩,型号设定充分考虑下游场景的不同需求,3B是适配手机等端侧设备的黄金尺寸;32B是最受开发者期待的“性价比之王”,可在性能和功耗之间获得最佳平衡,Qwen2.5-32B的整体表现超越了Qwen2-72B。Qwen2.5-72B模型在MMLU-rudex基准(考察通用知识)、MBPP 基准(考察代码能力)和MATH基准(考察数学能力)的得分高达86.8、88.2、83.1。

7a1f10ad7b54c0bd5bfdd7362a2d6ad6.png

2

Qwen2.5模型详解

1、Qwen2.5性能如何?

相比6月推出的Qwen2,Qwen2.5实现了整体性能的代际飞跃。在权威模型测评榜单OpenCompass中,开源的Qwen2.5-72B已领先于文心4.0等一众中国闭源模型。刚刚开源的Qwen2.5-72B,整体性能相比Qwen2 又取得了大幅提升!

057e8d3e4ceaba2ae716f85852e4b463.png

图说:在MMLU-redux等十多个基准测评中,Qwen2.5-72B表现超越Llama3.1-405B

9月29日,基准测试平台Chatbot Arena日前公布最新大模型盲测榜单,阿里通义千问开源模型Qwen2.5再次闯入全球十强,其大语言模型Qwen2.5-72B-Instruct排名LLM榜单第十,居于OpenAI的o1、GPT-4o等模型之后,是得分最高的中国大模型;同天开源的视觉语言模型Qwen2-VL-72B-Instruct闯入Vision榜单第九,略逊于GPT-4o、Gemini-1.5-Pro等闭源模型,是成绩最好的开源模型。

5ca1f939f78030afb10d5c510b4e8bb6.png

2、如何体验Qwen2.5模型能力?

我们要怎么体验Qwen2.5新模型的能力呢?我们需要先登录魔搭 CompassArena 大模型竞技场,登录地址如下:

https://modelscope.cn/studios/opencompass/CompassArena/summary

c2a6643f4f1ab667e11c9bab863c104f.png

登录后,我们选择【双模型对战】看抽卡能不能抽到Qwen2.5,需要多测试几轮,才会抽中。

9b64d1dfba5e9ec8c5f70ad5c593c924.png

如果一直抽不中,我们也可以直接选择【双模型对战(自选)】模式,给Qwen2.5 Pick对手,这里有很多市面上的模型,我们直接启动对战~

7f0f75ff1e14851389eadc708bfd0a00.png

我们通常对比两个模型的能力更强,主要对比他的逻辑推理能力,下面我问一个问题,让Qwen2.5模型和其他模型做比较,看看哪个更聪明?

问题:煮1个鸡蛋需要5分钟,煎一块饼的一面需要3分钟,饼需要翻面两次才能熟。煮锅和煎锅可以同时开火,煎锅一次最多只能放两块饼,那么我想要煮3个鸡蛋和2块饼,一共需要几分钟?

c12e22a5411c1b2a02e29b3fd8372eac.png

通过上面对比,我们发现Qwen2.5这个模型回答是正确的,总共需要6分钟,而且逻辑能力很强,条理也非常清楚 。从这里可以看出来,虽然国内有很多AI模型,但是我们必须要选择一个更聪明、出错率低的模型非常重要,不然它在那里胡说八道,你还听得很有道理,就非常尴尬了。

通义千问官网地址:

https://tongyi.aliyun.com/qianwen/

觉得内容还不错的话,给我点个“在看”呗

244b35ec5f4d94bbb709a4ffbfd0bc0f.gif

99f2433361265769d5cbb5a99ba0eeea.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程IT圈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值