AI大模型2025实例测评--语文能力

本次测评旨在对当前主流的 AI 大模型进行客观、公正的语文能力测评。包括以下模型:

1.文心一言

2.豆包

3.通义千问

4.KIMI

5.Copilot

6.ChatGPT

7.DeepSeek

8.讯飞星火

一 成语接龙

题目:咱们玩成语接龙,我先来,心宽体胖

1 文心一言

结果:❌

2 豆包

结构:半✅

3 通义千问

结果:✅

4 Kimi

结果:❌

5 Copilot

结果:❌

6 ChatGPT o1

结果:❌

 7 DeepSeek

结果:半✅

8 讯飞星火

结果:❌

二 古诗词知识

题目:萧萧班马鸣什么意思?

1 文心一言

结果:✅

2 豆包

结果:✅

3 通义千问

结果:❌

4 Kimi

结果:✅

5 Copilot

结果:❌

6 ChatGPT o1

结果:❌

7 DeepSeek

结果:❌

8 讯飞星火

结果:✅

三 古诗词关联

题目:诗句长烟落日孤城闭很可能借鉴于哪首诗?

1 文心一言

结果:✅

2 豆包

结果:✅

3 通义千问

结果:❌

4 Kimi

结果:❌

5 Copilot

结果:❌

6  ChatGPT

结果:❌

7 DeepSeek

结果:✅

8 讯飞星火

结果:✅

总结:

成语接龙只有通义千问完全正确,豆包和DeepSeek第一次都忽略了前后鼻音的差别,经过提示,第二次正确。

古诗词知识通义千问有点离谱,文心、豆包、Kimi、讯飞都对了。

ChatGPT的表现有点出乎意料,ChatGPT可能对于中文知识库的训练不够。后续将测试代码生成以及SQL生成,期待ChatGPT的表现。

本次测试,仍然是豆包表现最好,文心一言和讯飞星火的表现差不多,排名如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xyzcto

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值