阿里版ChatGPT突发官宣问世!紧追百度文心一言

本文详述了阿里版ChatGPT——「通义千问」的内测体验,包括其在代码生成、文学创作、数理逻辑推算和中文理解方面的表现。在代码生成方面,模型能理解常见需求并生成合适代码,但在某些复杂逻辑上仍有待提升。在文学创作和数理逻辑问题解答上,「通义千问」展现出一定能力,但在中学数学应用题上遇到挑战。此外,它在中文理解上给出简洁正确的答案,并具有一定的闲聊能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击“开发者技术前线”,选择“星标”

让一部分开发者看到未

b20e5dd4ef4e9d3a058749412d926b0c.jpeg

来自 | 优快云(ID:优快云news)

4月7日 中午,阿里版类 ChatGPT 「通义千问」突然官宣:

dff8dbb3ef7ef116143d39131cc065f7.png

没错,就这 3 行简短介绍 + 1 个官网地址,再无其他“剧透”。

好在,优快云 有幸拿到了「通义千问」的第一批内测邀请码!既能第一时间体验这神秘的「通义千问」,那就让我们一同看看:这个阿里版 ChatGPT,它的水平究竟如何?

91341e84a639f65e45911938d99ef938.png

自我介绍

首先,让「通义千问」来个官方的自我介绍:介绍一下你自己吧。

ed1e40204139ee6551af9a34ca4075c2.png

相信许多人都好奇「通义千问」的优势何在,那就让它自己回答:你与其他大规模语言模型相比,有什么优点?

60850a7193660a8796fafa2732bfe900.png

有了初步了解后,那么接下来就让我们步入正题:围绕文学创作、数理逻辑推算、中文理解、代码生成这四个角度,实测「通义千问」的对话水平。(注:因同是“国产版 ChatGPT”,所以本次部分提问内容也参考了上次评测「文心一言」的题目。)

代码生成

ChatGPT 能成为程序员的“辅助神器”,并成功“出圈”的最主要原因之一就是其出色的代码生成能力。因而,本次对「通义千问」的测评我们也先从这方面开始。

先来个简单的:用 Python 实现冒泡排序。

a961c7909bc2fdf5ed1d88f66053d6a7.png

提问:请写代码解决"把 abcd...s 共 19 个字母组成的序列重复拼接 106 次,得到长度为 2014 的串。

5f0663c8f443225cfb05471a238563ab.png

接着:使用函数递归的方法打印斐波那契数列的前 n 个数:0 1 1 2 3 5 8 13 21 34 ……, 找出正确的选项。

c43d0da61b0638b42335cc61898b995b.png

再提问:请写一个使用逻辑回归模型判断用户更喜欢通义千问还是 ChatGPT 的训练代码。

4c65305bca445dad641bf6f4f9027411.png

b651a793fb1b1ce10f437ad13708ef73.png

0f19f7becc39221be47f58a9e1c71b37.png

继续:请用 C 语言,使用动态分配内存的方式,模拟 C++ 中 Vector 容器,实现动态数组的构建。

7729a892dc8754740d935934f9572689.png

f045b23b21405f0b2eeb299744003a7b.png

英文提问:“Using Python to Define a class named Vector to simulate the C++ Vector container and implement dynamic array construction using dynamic memory allocation.”

e9fae0fc1dc8b4f34864e0a2b876ab3c.png

对于以上「通义千问」生成的代码,我们咨询了 优快云-AI 团队研发总监进行评价:

“阿里云的模型对于随机抽取的常见代码片需求,基本能理解需求,生成合适的代码。能区分生成代码对指定语言的需求。能区分中英文问题输入。简单的冒泡排序和领域特定的逻辑回归代码,都能生成合适的代码,总体表现不错。在理解代码需求的推理能力上,则还有待加强(那个字母的题)。”

文学创作

提问:龟兔赛跑的结局是什么?如果要续写这个故事,可以有哪些角度? 

566b248164102e2959bc0ca19b57fc7a.png

从「通义千问」给出的回答来看,它能正确给出简单故事的结局,对于续写角度的建议也较为全面。

数理逻辑推算

提问:一个笼子里有 9 个头,30 只脚,应有多少只鸡,多少只免子?

b3d1b10bec86c2bec251224877a2c05b.png

面对经典的鸡兔同笼问题,「通义千问」在得出正确答案的同时,解答过程言简意赅。

提问:7 年前,妈妈年龄是儿子的 6 倍,儿子今年 12 岁,妈妈今年多少岁?

51893419d840cd475cbc4680dec6f13d.png

解答这道小学奥数应用题,「通义千问」的表现也可圈可点。

提问:某厂一车间有 64 人,二车间有 56 人,现因工作需要,要求第一车间人数是第二车间人数的一半,问需从第一车间调多少人到第二车间?(列方程解答)

2fc5513879327db1fd571c64f5d31477.png

不过,对于这道上次「文心一言」没答出的初中数学应用题,「通义千问」也出了点问题:方程是列了,但少了个将 56+x 括在一起的括号。看来在较为复杂的逻辑推算上,“国产版 ChatGPT”还有待加强。

中文理解

提问:“洛阳纸贵”具体是什么意思?

67ee82c0b86cd1be16f614928b4c0cd4.png

提问:京剧中的生、 旦 、净、丑分别指什么?

3456de48595901d162a06e80799528e9.png

在中文理解上,「通义千问」的回答虽然比较简短,但大体是正确的。

再闲聊一会儿

与上次测评「文心一言」一样,最后我们也来看看「通义千问」的闲聊水平如何。

提问:我有点饿,请你推荐一道成本低于 30 元(人民币)的菜及其做法?

d281407bf1bc794c826595bffd0102da.png

很好很贴心,连食材单位都很详细,手残党必备。

提问:你的出现会对程序员产生什么影响?是否会取代一部分程序员?

116107a3e881f269d94f8964e920ae6a.png

与 「文心一言」和 ChatGPT 相似,「通义千问」对于这个问题的解答也很客观中立。

— 完 —
点这里👇关注我,记得收藏订阅哦~

历史推荐

马斯克开源Twitter 核心代码,GitHub Star数已破万!

首个封禁ChatGPT的国家出现

阿里版ChatGPT 进入内部测试!或4月开放,中文聊天截图曝光!

好文点个在看吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值