本次测评旨在对当前主流的 AI 大模型进行客观、公正的语文能力测评。包括以下模型:
1.文心一言
2.豆包
3.通义千问
4.KIMI
5.Copilot
6.ChatGPT
7.DeepSeek
8.讯飞星火
一 成语接龙
题目:咱们玩成语接龙,我先来,心宽体胖
1 文心一言
结果:❌
2 豆包
结构:半✅
3 通义千问
结果:✅
4 Kimi
结果:❌
5 Copilot
结果:❌
6 ChatGPT o1
结果:❌
7 DeepSeek
结果:半✅
8 讯飞星火
结果:❌
二 古诗词知识
题目:萧萧班马鸣什么意思?
1 文心一言
结果:✅
2 豆包
结果:✅
3 通义千问
结果:❌
4 Kimi
结果:✅
5 Copilot
结果:❌
6 ChatGPT o1
结果:❌
7 DeepSeek
结果:❌
8 讯飞星火
结果:✅
三 古诗词关联
题目:诗句长烟落日孤城闭很可能借鉴于哪首诗?
1 文心一言
结果:✅
2 豆包
结果:✅
3 通义千问
结果:❌
4 Kimi
结果:❌
5 Copilot
结果:❌
6 ChatGPT
结果:❌
7 DeepSeek
结果:✅
8 讯飞星火
结果:✅
总结:
成语接龙只有通义千问完全正确,豆包和DeepSeek第一次都忽略了前后鼻音的差别,经过提示,第二次正确。
古诗词知识通义千问有点离谱,文心、豆包、Kimi、讯飞都对了。
ChatGPT的表现有点出乎意料,ChatGPT可能对于中文知识库的训练不够。后续将测试代码生成以及SQL生成,期待ChatGPT的表现。
本次测试,仍然是豆包表现最好,文心一言和讯飞星火的表现差不多,排名如下: