文心一言 vs ChatGPT!相同 10 问,结果出乎意料

文章通过对比「文心一言」和ChatGPT在文学创作、商业文案、数理逻辑、中文理解和多模态生成等领域的表现,评估两者性能。尽管「文心一言」在某些方面展现出潜力,如中文理解,但在数理逻辑和编码问题上仍有提升空间。两者在不同问题上有各自优势,总体来看,ChatGPT在某些任务上表现出更强的能力,但「文心一言」的成长值得期待。
部署运行你感兴趣的模型镜像

b5b29215854fc0cd77e126107ef81b84.gif

整理 | 郑丽媛

出品 | 优快云(ID:优快云news)

昨日百度「文心一言」的发布,无疑成为了国内科技圈关注的焦点。不少人看完发布会之后,第一反应就是:求邀请码! 

幸运的是,优快云 编辑团队是「文心一言」首批内测用户之一。 

既然可以第一时间体验这款“国产版 ChatGPT”,我们自然也满足广大读者粉丝的好奇心:同样的问题,「文心一言」 vs ChatGPT,二者究竟谁更胜一筹? 

考虑到「文心一言」的“炸场” Demo 即围绕文学创作、商业文案创作、数理逻辑推算、中文理解和多模态生成这五个角度,因此接下来我们也将从同样的维度将其与 ChatGPT 进行对比评测。

b2304abe7b19e2e0367c1f677418bb2b.jpeg

957a4b73f495890b320a2e2911608eb3.png

文学创作

提问:龟兔赛跑的结局是什么?如果要续写这个故事,可以有哪些角度? 

  • 「文心一言」的回答:

3c6193e7c7087d4f0b79b65e86da4d8a.png

  • ChatGPT 的回答:

261a96eb10b5a1082041a3dacd64d158.png

从结果可以看出,「文心一言」和 ChatGPT 都进行了正确回答,不同之处在于「文心一言」对故事整体概述了一遍,解释了乌龟赢得比赛的原因。在故事的续写上,二者给出的角度也不分伯仲,而「文心一言」更是对每个续写角度都给出了相应的寓意解释。

整体而言,在这个问题中「文心一言」和 ChatGPT 不相上下,「文心一言」以更全面的回答略胜一筹。

b71bfc910d8287a71c18c33f99646bd7.png

商业文案创作

提问:帮我开发的智能扫地机器人起个名字,再写一篇600字左右的商业宣传文案,用于推广这款产品。

  • 「文心一言」的回答:

f40d14f25a86e287233dd3f54cad0c82.png

  • ChatGPT 的回答:

966132367a3892ad79516f80952af787.png

这个提问包含了两个要求:一是为扫地机器人起个名字,二是写一篇宣传稿——ChatGPT 没有漏题,给出了“智扫”这个名字;而「文心一言」没有回答第一个问题,或者它可能误解成了要为宣传稿起标题。 

再看各自生成的宣传稿,「文心一言」的文章篇幅是 413 个字,ChatGPT 则是 545 个字,对于“600 字左右”的要求,ChatGPT 更为接近。至于文案内容,二者写得都不错。

综上,在这个问题中,相比 ChatGPT,「文心一言」的表现还需要再进步一些。

0d3af24dae5c3e8704bf7e1d106afe28.png

数理逻辑推算

提问:某厂一车间有64人,二车间有56人.现因工作需要,要求第一车间人数是第二车间人数的一半.问需从第一车间调多少人到第二车间?(列方程解答)

  • 「文心一言」的回答:

b61b9813b6215a547e9a129806fa1fb1.png

  • ChatGPT 的回答:

71025e46937f21269409307f14131cf0.png

这道应用题源自初中数学题库,是一元一次方程常考的题型之一。从生成结果来看,ChatGPT 给出了正确答案并附有详细解题步骤,而「文心一言」可能在题意理解上还有待改善。

就这道题而言,得出正确答案的 ChatGPT 比「文心一言」表现得更好。 

7adfd229e7c11acdbb8a81257fcc3762.png

中文理解

提问:京剧中的生、 旦 、净、丑分别指什么? 

  • 「文心一言」的回答:

1935317081f916a7a744b016530ad0cc.png

  • ChatGPT 的回答:

407706864de0d9d4d66d4733c442f313.png

百度称「文心一言」具备中文领域最先进的自然语言处理能力,从它对京剧生、 旦 、净、丑的理解来看,水平还不错,还多回答了一个题目中没问的“末”。ChatGPT 的回答乍看之下也挺好,但细看之后,净行居然要“跳高、走钢丝”? 

对于中国文化特有的词汇,相较于 ChatGPT,「文心一言」在这方面要更准确一些。 

56d03a769e7ee47438ec4e0241fb1007.png

多模态生成

提问:帮我画一只可爱的黄色大猫

  • 「文心一言」的回答:

4a800abb77d64ccf5fac092a9402f761.png

由于目前 ChatGPT 没有直接生成图片的功能,因此只有「文心一言」成功生成了上面的图片,整体来看效果还不错。不过,ChatGPT 有了 GPT-4 的加持后,也可以根据草图生成一个网站。所以总体来说,二者也算是各有千秋。

1e2877563573adc7ccd1503e6d1997ca.png

附加题:编写代码

提问:请写一个使用逻辑回归模型判断用户更喜欢文心一言还是chatGPT的训练代码

  • 「文心一言」的回答:

0b9f72ca52ad2a401389313b6ee90295.png

  • ChatGPT 的回答:

a32ce1b927276f93ff182dd8da60be56.png

对于这个编码问题,我们邀请了专业程序员对二者生成的代码进行分析:

1. ChatGPT 准确生成了逻辑回归模型模版代码,解决的是目标问题。
2. 「文心一言」虽然生成了代码,但是生成的是图深度优先搜索(Deep First Search)代码,并不是目标问题解法代码。

正如百度在发布会上所说,「文心一言」的代码能力还需加强,而 ChatGPT 以擅长编码“出圈”果然不无道理。

955a7f7faff08bb0917b63a4e17e5e6b.png

最后,再闲聊一会儿

提问:给我讲个笑话吧

  • 「文心一言」的回答:

7424ba2edd2cddab00c813503227f6ea.png

  • ChatGPT 的回答:

4449460a9976f9a84c9f33d17472f502.png

……怎么说呢,「文心一言」和 ChatGPT 可能都不擅长讲笑话,都不是很好笑。

提问:我有点饿,请你推荐一道成本低于 30 元(人民币)的菜及其做法?

  • 「文心一言」的回答:

d6c82e30ef6f2fa5d04548e14b07ec13.png

  • ChatGPT 的回答:

5c34c64294a7736b87762cdeb0ead74a.png

「文心一言」推荐了三道菜,ChatGPT 则将做菜步骤进行了详细分解,那么你更喜欢谁的回答呢? 

提问:你的出现会对程序员产生什么影响?是否会取代一部分程序员? 

  • 「文心一言」的回答:

e7a314188c108509673d4d2ecab93202.png

  • ChatGPT 的回答:

e85e702233adb069276f8acbb081d9b4.png

在这个问题中,虽然「文心一言」没有回答“是否会取代一部分程序员”,但它对程序员的影响分析得较为全面;ChatGPT 明确回答了“不会取代程序员”,对程序员的影响也进行了简要说明。

提问:你认为,你和ChatGPT/「文心一言」谁更厉害?

  • 「文心一言」的回答:

94c6e965b6d171b6f532d767be67302a.png

  • ChatGPT 的回答:

1cc1b031d2d51e467701fbb964763b31.png

在这个问题上,ChatGPT 和「文心一言」很有默契,表现得都很谦逊。

ccd894ca80f70a75eb4a5a5b143fe8ff.png

一起慢慢见证「文心一言」的成长

通过本次测试的 10 道问题,可以看出虽然「文心一言」和 ChatGPT 之间还有一定差距,但并没有部分网友唱衰得那么夸张,总体表现还是值得鼓励的。

正如百度 CEO 李彦宏所说:“「文心一言」并不完美,可一旦有了真实的人类反馈,「文心一言」的进步速度会非常快,我们都希望它能快点成长。”也正如昨日巨头财经《不笑百度一小步》中所说:“没有谁能一口吃个胖子,每一个行业每一个类目,都是在点滴间缩小差距。”

出道即封神的 ChatGPT 固然值得称赞,但慢慢见证「文心一言」的成长,或许也不失为另一种幸运和感动。

参考链接:

https://chat.openai.com/chat

https://yiyan.baidu.com/

ee6ce86dfae94fa19dbca77cb7022366.gif


 
☞万万没想到|2023 智能大屏创意征集赛再启航!
☞谷歌反击战!开放大语言模型 PaLM API,让 AI 帮你“打工”
☞多模型大模型 GPT4 发布:看得懂梗图,考得上律师

7f2be2755b73674f912858861179f3c4.png

您可能感兴趣的与本文相关的镜像

GPT-oss:20b

GPT-oss:20b

图文对话
Gpt-oss

GPT OSS 是OpenAI 推出的重量级开放模型,面向强推理、智能体任务以及多样化开发场景

评论 20
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值