你也能测!简单扑克游戏,Deepseek 唯一全对,13大模型PK

在人工智能的发展浪潮中,推理能力一直是衡量大模型实力的重要标准之一。最近,Deepseek 推出了其最新的推理模型 Deepseek R1,业内反响强烈。测试表明,这款大模型的表现已达到与 OpenAI o1 相当的水平,并在一些场景下超越了同类产品。为了验证这一点,我们通过一个经典的数学推理游戏——24点游戏,来对 Deepseek R1 与其他主流大模型的推理能力进行对比评测。

1. Deepseek R1 介绍

Deepseek R1 是 Deepseek 推出的第二代推理模型,基于大量强化学习(RL)训练并加入冷启动数据(Cold-start data)进行优化,解决了其前代模型 Deepseek R1-Zero 的一些问题,如无监督的强化学习可能导致的语言混合和可读性差等缺陷。Deepseek R1 在数学、编程及推理任务上展示了卓越的能力,与 OpenAI 的 o1 系列模型比肩,甚至在一些基准测试中超越了 OpenAI o1-mini。值得注意的是,Deepseek R1 还开源了多种不同大小的模型,包括从 Deepseek R1 精简的 Qwen 32B 模型,这一版本在多个基准测试中表现出色,达到了业界领先的水平。

在这里插入图片描述

2. 评测方法

为了全面评估 Deepseek R1 的逻辑推理能力,我们选择了一个经典的推理任务——24点游戏。这是一个纯粹依赖逻辑推理的数学游戏,不依赖于搜索或枚举解决方案,适合测试模型的推理思维能力。游戏的规则如下:

  1. 每局随机抽取四张扑克牌,可以重复使用。
  2. 仅允许使用加法(+)、减法(-)、乘法(×)、除法(÷)四种运算符。
  3. 每张牌必须使用且只能使用一次。
  4. 目标是通过这些运算使四张牌的计算结果等于24。

题目设置了两组数字进行测试:</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

surfirst

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值