S1:仅1k样本，使用测试时扩展（Test-time Scaling）超越OpenAI o1-preview性能

最新推荐文章于 2025-10-21 13:26:53 发布

原创

最新推荐文章于 2025-10-21 13:26:53 发布 · 1.5k 阅读

·

13

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #LLM #大模型

随着大型语言模型的涌现，如何通过优化算法和策略来提高这些模型的性能成为了业界和学术界关注的热点。OpenAI的o1模型展示了测试时扩展（Test-time Scaling）方法在提升语言模型性能方面的潜力。本文介绍了一种名为s1的简约测试时扩展方法，该方法旨在通过精心设计的数据集和创新的预算强制（Budget Forcing）策略，实现性能上的显著飞跃，甚至超越了OpenAI的o1-preview模型。

一、背景与动机

测试时扩展是一种利用额外测试时计算能力来提高模型性能的方法。这种方法的核心思想是，在测试阶段给予模型更多的计算资源，以便它能够更深入地处理输入信息，从而作出更准确的预测。OpenAI的o1模型已经证明了这种方法的有效性，但如何在保持方法简约性的同时实现性能的最大化提升，仍然是一个挑战。

二、s1方法概述

s1方法主要围绕两个核心部分展开：精心策划的小数据集s1K和创新的预算强制策略。

（一）s1K数据集

s1K是一个包含1000个问题的数据集，每个问题都配有详细的推理轨迹。这些数据集的选择基于三个关键标准：难度、多样性和质量。

难度：数据集应具有一定的挑战性，要求显著的推理努力。为了确保这一点，s1K从多个来源收集了初始的59029个问题，并通过两个不同规模的模型（Qwen2.5–7B-Instruct和Qwen2.5-32B-Instruct）进行评估，以筛选出那些能够反映模型推理能力的难题。
多样性：数据集应涵盖不同的领域，以覆盖不同的推理任务。为了实现这一点，s1K从现有的数据集（如NuminaMATH、AIME problems、OlympicArena、AGIEval）中筛选数据，并创建了两个

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大模型之路 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。