AI 系统评估基准-基础数学（GSM8K）

最新推荐文章于 2025-05-06 09:09:01 发布

百态老人

最新推荐文章于 2025-05-06 09:09:01 发布

阅读量1.7k

点赞数 4

分类专栏：生成式AI 文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_41429382/article/details/144053747

版权

生成式AI 专栏收录该内容

29 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

GSM8K是一个由OpenAI发布的数据集，有8.5K个高质量语言多样的小学数学问题组成。这些问题需要2到8个步骤来解决，解决方法主要是使用基本的算术运算（+ - / *）进行一连串的基本计算，以得出最终答案。虽然看起来很简单，但很多大模型的表现都不太好。

在多项大模型的评估中，GSM8K都被作为重要的基础数学评估基准。例如，Anthropic推出的Claude 3系列模型中，最强的Opus在多项AI系统常用评估标准中表现出色，包括本科级别专业知识（MMLU）、研究生级别专家推理（GPQA）、基础数学（GSM8K），均取得领先业界LLM的性能。在处理复杂任务时，Opus展现出了几乎与人类相媲美的理解和表达能力。

Meta发布的Llama 3开源大模型，在多项基准测试中，Llama 3 70B超过同行。在MMLU、GPQA等多项五项基准上，指令微调的Llama 3 8B得分都超过谷歌Gemma。

复旦大学联合上海人工智能实验室初步实现传说中的“Q*”算法，通过结合创新算法，Llama8B在数学基准测试GSM8K上达到了96.7%的惊人成绩，比GPT-4、Claude和Gemini都要好，且参数量仅为这些模型的二百分之一。

开源大模型Reflection 70B在官方评测中全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

百态老人 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。