Anthropic 的 "Think"工具 代表了 AI 推理能力发展的一个重要里程碑。通过允许 Claude 在任务执行过程中进行结构化的 “停顿与思考”,它显著提高了模型在复杂推理、政策遵循和连续决策任务中的表现。这项技术不仅提升了 AI 的性能,还增强了其决策过程的透明度和可解释性,为构建更可靠、更值得信赖的 AI 系统奠定了基础。
随着我们不断增强Claude解决复杂问题的能力,我们发现了一种特别有效的方法:一种“思考”工具,可以在复杂任务期间为结构化思考创造专用空间。
这种简单但功能强大的技术(我们将在下文中解释,它与 Claude 的新“扩展思维”(延伸思考)能力不同)显著提高了 Claude 的代理工具使用能力。这包括遵循政策、做出一致决策和处理多步骤问题,所有这些都只需最少的实施开销。
在这篇文章中,我们将探讨如何在不同的应用程序上实现“思考”工具,并根据经过验证的基准测试结果为开发人员分享实用指导。
什么是“思考”工具?
通过“思考”工具,我们赋予 Claude 能力,使其能够添加额外的思考步骤(拥有自己指定的空间),作为获得最终答案的一部分。
虽然听起来与扩展思考(延伸思考)类似,但概念却不同。扩展思考(延伸思考)是指 Claude 在开始生成响应之前所做的一切。借助扩展思考,Claude 会在采取行动之前深入思考并反复考虑其计划。一旦 Claude 开始生成响应,则“思考”工具会添加一个步骤来停止并思考它是否拥有继续前进所需的所有信息。这在执行长链工具调用或与用户进行长时间的多步骤对话时特别有用。
这使得“思考”工具更适合于 Claude 无法从用户查询中单独形成响应所需的所有信息,以及需要处理外部信息(例如工具调用结果中的信息)的情况。Claude 使用“思考”工具进行的推理不如通过扩展思考获得的推理全面,并且更侧重于模型发现的新信息。
我们建议将扩展思维用于更简单的工具使用场景,例如非顺序工具调用或直接遵循指令。当您不需要 Claude 调用工具时,扩展思维对于编码、数学和物理等用例也很有用。当 Claude 需要调用复杂工具、在长链工具调用中仔细分析工具输出、使用详细指南导航策略繁重的环境或做出顺序决策(其中每个步骤都建立在前一步的基础上并且错误代价高昂)时,“思考”工具更适合。
具体测试细节见原文
T-Bench 分析的关键见解
我们的详细分析揭示了几种可以帮助您有效实施“思考”工具的模式:
- 对于困难领域,提示非常重要。只需提供“思考”工具即可在一定程度上提高性能,但将其与优化的提示相结合,可显著改善困难领域的结果。然而,对于较容易的领域,只需访问“思考”即可获益。
- 提高了试验之间的一致性。使用“思考”带来的改进在 pass^k 到 k=5 时一直保持,这表明该工具帮助 Claude 更有效地处理边缘情况和不寻常的情况。
何时使用“思考”工具
根据这些评估结果,我们确定了 Claude 从“思考”工具中受益最多的特定场景:
- 工具输出分析。Claude在采取行动之前需要仔细处理先前工具调用的输出,并且可能需要在其方法中回溯;
- 策略密集型环境。当 Claude 需要遵循详细的指导方针并验证合规性时;
- 顺序决策。当每个动作都建立在前一个动作的基础上时,错误的代价是昂贵的(通常在多步骤领域中发现)。
实施最佳实践
为了充分利用 Claude 的“思考”工具,我们根据 T-bench 实验推荐以下实施实践。
1. 使用特定领域的例子进行策略性提示
最有效的方法是提供关于何时以及如何使用“思考”工具的明确说明,例如用于 t-bench 航空公司领域的工具。提供针对您的特定用例量身定制的示例可显著提高模型使用“思考”工具的效率:
- 推理过程中预期的详细程度;
- 如何将复杂的指令分解为可操作的步骤;
- 用于处理常见场景的决策树;以及
- 如何检查是否已收集所有必要的信息。
2. 在系统提示中放置复杂的引导
我们发现,当它们很长或很复杂时,在系统提示中包含有关“思考”工具的说明比将它们放在工具描述本身中更有效。这种方法提供了更广泛的背景,并有助于模型更好地将思考过程整合到其整体行为中。
何时不应使用“思考”工具
尽管“思考”工具可以提供实质性的改进,但它并不适用于所有工具使用案例,并且确实会增加提示长度和输出标记。具体来说,我们发现“思考”工具在以下用例中没有提供任何改进:
- 非连续的工具调用。如果 Claude 只需要进行一次工具调用或多次并行调用即可完成一项任务,那么添加“思考”不太可能带来任何改进。
- 简单的指令遵循。当 Claude 需要遵守的约束并不多,并且其默认行为足够好时,额外的“思考”不太可能带来好处。
入门
“思考”工具是 Claude 实现的一个直接补充,只需几个步骤即可带来有意义的改进:
- 使用代理工具使用场景进行测试。从具有挑战性的用例开始,这些用例是 Claude 目前在长工具调用链中努力应对策略合规性或复杂推理的用例。
- 添加工具定义。实现针对您的领域定制的“思考”工具。它需要最少的代码,但可以实现更结构化的推理。还可以考虑在系统提示中包含有关何时以及如何使用该工具的说明,以及与您的领域相关的示例。
- 监控和改进。观察 Claude 在实践中如何使用该工具,并调整提示以鼓励更有效的思维模式。
最好的部分是,添加此工具对性能结果的影响很小。除非 Claude 决定使用它,否则它不会改变外部行为,也不会干扰您现有的工具或工作流程。
结论
我们的研究表明,“思考”工具可以显著提高 Claude 3.7 Sonnet 在执行需要在长链工具调用中遵守政策和推理的复杂任务时的性能1。 “思考”并不是一个万能的解决方案,但它为正确的用例提供了实质性的好处,而且实现复杂性极低。
我们期待看到您如何使用“思考”工具与 Claude 一起构建更强大、更可靠、更透明的 AI 系统。
原文链接:https://www.anthropic.com/engineering/claude-think-tool?ref=producthunt