你也能测！简单扑克游戏，Deepseek 唯一全对，13大模型PK

原创

已于 2025-01-21 21:17:35 修改 · 1.2k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #评测

于 2025-01-21 21:04:36 首次发布

在人工智能的发展浪潮中，推理能力一直是衡量大模型实力的重要标准之一。最近，Deepseek 推出了其最新的推理模型 Deepseek R1，业内反响强烈。测试表明，这款大模型的表现已达到与 OpenAI o1 相当的水平，并在一些场景下超越了同类产品。为了验证这一点，我们通过一个经典的数学推理游戏——24点游戏，来对 Deepseek R1 与其他主流大模型的推理能力进行对比评测。

1. Deepseek R1 介绍

Deepseek R1 是 Deepseek 推出的第二代推理模型，基于大量强化学习（RL）训练并加入冷启动数据（Cold-start data）进行优化，解决了其前代模型 Deepseek R1-Zero 的一些问题，如无监督的强化学习可能导致的语言混合和可读性差等缺陷。Deepseek R1 在数学、编程及推理任务上展示了卓越的能力，与 OpenAI 的 o1 系列模型比肩，甚至在一些基准测试中超越了 OpenAI o1-mini。值得注意的是，Deepseek R1 还开源了多种不同大小的模型，包括从 Deepseek R1 精简的 Qwen 32B 模型，这一版本在多个基准测试中表现出色，达到了业界领先的水平。

在这里插入图片描述