随着人工智能技术的飞速发展,选择适合的大模型对开发者至关重要。2025年5月,谷歌在 I/O 大会上推出的 Gemini 2.5 Flash Preview (05-20) 以其高效低成本的特性受到关注,在 LMArena.ai 排行榜中位列第二,仅次于 Gemini 2.5 Pro Preview。同期,xAI 的 Grok 3和 Anthropic 的 Claude 4 Sonnet(2025年5月22-23日发布)也以卓越性能备受瞩目。我们利用 POLOAPI 平台的高效模型调用功能,对这三款模型进行了全面测试,涵盖逻辑推理、多模态处理和代码生成等场景,旨在为开发者提供客观的性能参考。本文通过全新设计的测试任务,结合官方定价信息,深入分析三款模型的表现,并探讨其在实际场景中的应用潜力。
模型定价概览(单位:美元/百万 token)
| 模型 | 输入价格 | 输出价格 |
|---|---|---|
| Gemini 2.5 Flash Preview (05-20) | $0.15 | $3.50 |
| Grok 3 Reasoning | $3.00 | $15.00 |
| Claude 4 Sonnet | $3.00 | $15.00 |
性能评测与分析
1. 逻辑推理能力
逻辑推理能力是大模型处理复杂问题的核心。我们设计了以下任务,测试模型的语义理解和推理能力。
1. 逻辑推理
提示词:如果今天我有5本书,昨天借出了3本,现在我手上有几本书?
题目解析:此题考察模型对时间语义和当前状态的理解。提示词明确指出“今天我有5本书”,因此昨天的借书行为不影响当前数量,正确答案为 5本书。这是一个看似简单但容易因过度推理而出错的问题。
-
Gemini 2.5 Flash:正确回答 5 本书,简洁指出当前状态优先于历史行为。

-
Grok 3:Grok 3 Reasoning 模型在回答“今天有5本书,昨天借出3本,现在有几本”时出现了逻辑错误,它错误地将“今天有5本书”理解为初始数量,并从中减去昨天借出的书本数,忽略了“今天有5本书”已明确当前状态。正确理解应是:不论昨天发生了什么,既然题目说“今天有5本”,那现在手上就有5本书。模型混淆了时间顺序和语义前提,导致推理失误。

-
Claude 4 Sonnet:Claude Sonnet 4 的回答明确以“今天有5本书”为当前事实,同时指出“昨天借出3本”可能引起理解混淆,并提供了不同解释的可能性,表现出良好的语言歧义识别与澄清能力,是更稳健、贴近人类思维的答复方式。
-

分析:在这道考察时间语义理解的逻辑推理题中,各大模型表现差异明显:Gemini 2.5 Flash直接给出正确答案“5本书”,明确以当前状态为依据,展现出高效准确的推理能力;Grok 3 Reasoning则犯了典型的时间理解错误,把“今天有5本书”误当作初始值,并

最低0.47元/天 解锁文章
5454

被折叠的 条评论
为什么被折叠?



