GPTs 和额头侦探

原创于 2025-12-16 00:12:19 发布 · 543 阅读

30 ·

CC 4.0 BY-SA版权

License CC BY-NC-SA 4.0 / 自豪地采用谷歌翻译

文章标签：

#榛樿鍒嗙被

榛樿鍒嗙被专栏收录该内容

1065 篇文章

订阅专栏

原文：towardsdatascience.com/gpts-and-the-forehead-detective-ea05440c2c63

每当我与家人长途旅行时，我们喜欢花时间玩各种口语游戏，尤其是那些不需要我（作为驾驶员）太多注意力的游戏。我们最喜欢的游戏之一就是角色猜测游戏。规则很简单：一个人想出一个角色——真实或虚构的——然后我们其他人尝试猜出他是谁。我们只能问可以用简单“是”或“否”回答的封闭式问题。想出角色的人必须只回答这些答案。我们轮流提问，第一个正确猜出角色的人获胜。所以这很像“额头侦探”游戏，但没有贴在我们额头上的便利贴。

在我们最近的一次旅行中，我们玩这个游戏，但过了一段时间，我们开始缺乏猜测角色的想法。那时我想，“为什么不让 ChatGPT 接管这个任务呢？”我的手机上安装了 ChatGPT 应用，所以我启动了它，并让 ChatGPT 为我们想出一个角色来猜测。我还指示它回答我们对角色的猜测。于是，我们开始和 ChatGPT 一起玩。它想出了一个角色，我们轮流提问。AI 对每个问题都回答“是”或“否”。所有答案看起来都很合理，并引导我们更接近识别正确的角色。游戏的结局是这样的（我们已经从其他地方了解到这个角色是一只来自电影的鸟）：

出现在电影中的鸟是这部电影的主角吗？
是的。
鸟是玩具吗？
是的。
它是来自《玩具总动员》电影吗？
是的。

在这里我们放弃了。我们不知道《玩具总动员》中的任何玩具鸟。我让 GPT 揭示这个角色。它的回答是：

我在想《玩具总动员》中的大象，一个角色。开玩笑！我的意思是《玩具总动员 2》中装扮成鸡的 Buzz Lightyear——一个穿着大靴子、戴着一顶帽子和两把枪的“互动”客串角色。

这让我和我的家人都震惊了。我让它澄清。

对不起，弄错了！我的意思是“玩具总动员 3”中名叫“Wojtek”的鸟。然而，并没有这样的鸟。我想我在提问的过程中迷失了方向。如果你愿意，我们可以再试一次！

这相当出乎意料。我的孩子们感到烦恼，但这次经历让我开始思考。一方面，ChatGPT 似乎在回答我们的问题时非常顺畅和有效。另一方面，当涉及到我们游戏的最终结果时，它完全失败了。这让我反思，语言模型可能并不像我们预期的那样擅长推理和得出结论。也许这种类型的游戏可以作为评估语言模型推理和推理质量的好测试。只需一个改变：角色互换。我会想出一个要猜测的角色，语言模型的任务就是提出能够引导猜测该角色的提问。这样，我可以衡量一个给定的语言模型多快能猜出这个角色，并分析推理过程——模型如何缩小特征范围，它提出的问题类型，是否在某个点上迷失方向，问题是否形成一个连贯的序列，等等。

寻找相关研究

因此，我决定采取行动。然而，在我开始实施自己的应用程序以对语言模型进行此类评估之前，我首先决定检查是否已经存在其他使用此类游戏来评估语言模型的科学研究。我找到了两篇这样的研究论文，探讨了这种方法，为理解 LLM 如何处理需要复杂推理和上下文理解的任务提供了基础。

研究编号#1：探测 LLM 的多轮规划能力

通过 20 个问题游戏

这项 2024 年 2 月的研究探讨了使用类似于经典“20 个问题”游戏的单词猜测游戏，以评估包括商业 LLM（GPT-4、GPT-3.5）和开源模型（Claude-1/2、Vicuna 7B/13B、Mistral 7B）在内的几个 LLM 的推理能力。

在这项研究中，研究人员要求 LLM 根据一系列是/否问题来识别目标单词。每个模型的性能根据其准确猜测单词的能力以及在有限次数的问题内进行测量，以及它提出的问题的相关性和连贯性。研究发现，开源模型与更先进的专有模型（如 GPT-4）之间在性能上存在显著差异。具体来说，GPT-4 在上下文理解和推理方面表现出色，通常在准确性和问题逻辑进展方面优于其他模型。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/32a5574f61c56fae7f0e205eeff02795.png

"printer"实体的成功游戏玩法示例（由 GPT-4 提供），以及各种规划与推理问题的游戏玩法（由 Vicuna 7B 提供）| 来源：2310.01468 (arxiv.org)

研究得出结论，猜词游戏可以作为评估 LLMs 智能的有效且易于访问的方法，尤其是在需要细微推理和从有限数据中推断信息的能力的任务中。

研究二：介绍 SpyGame 框架：一种多智能体评估 LLMs 的方法

在使用游戏来评估 LLMs 的概念基础上，第二项研究，于 2023 年 10 月发表，介绍了一个名为“SpyGame”的更复杂的评估框架。这项研究通过将多个基于 LLMs 的智能体纳入一个名为“谁是间谍？”的战略文字游戏，扩展了传统的猜词游戏格式。在这个游戏中，LLMs 不仅要猜测一个隐藏的单词，还要进行战略推理，以推断其他智能体的角色并隐藏自己的身份。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e8c17d3e7f188d7bb919c3fcb8a708fd.png

SpyGame – 一个用于评估 LLMs 推理能力的交互式多智能体游戏框架 | 来源：2310.20499 (arxiv.org)

SpyGame 框架通过模拟在竞争环境中多个智能体之间的交互，测试了更广泛的认知能力，包括情境保持、战略推理和决策。研究人员发现，虽然像 GPT-4 这样的 LLMs 在直接猜词任务中表现良好，但增加战略元素引入了新的挑战，暴露了模型在长时间交互中保持连贯性和一致性的能力局限性。

研究结果强调了考虑 LLMs 的推理能力的重要性，而不仅仅是它们在更动态和互动环境中的表现。作者建议，像 SpyGame 这样的游戏可以为 LLMs 的认知能力提供更深入的见解，尤其是在模拟现实世界决策过程的场景中。

对于那些对这些研究的方法和详细发现感兴趣的人，我鼓励你们阅读完整的论文。您可以通过以下链接直接访问它们：

由于这些研究是在一段时间前进行的，同时发布了一些更先进的新 LLMs，包括 GPT-4o 和 GPT-4o-mini。我渴望看到它们与 GPT-4 的比较结果。

我自己的 LLMs 猜词游戏

为了实现我自己的应用来评估各种 LLMs 如何玩猜词游戏，我决定测试 OpenAI 提供的 GPT 模型，这些模型可以通过他们的 API 获取。

我使用了 OpenAI Python SDK，并迅速草拟了一个简单的应用程序，其中包含主游戏循环和与 GPT 的通信。然后是有趣的部分：提示工程。对于猜测模型（被提问并评估的那个）和裁判模型（回答猜测模型问题的那个）的第一版提示，结果并不令人满意。例如，猜测模型偶然提出了开放和重复的问题，或者在一个单一的回答中提出了多个问题。而裁判模型倾向于即使人物的名字没有出现在问题中，也会指出正确的猜测。经过一些实验，我最终得到了以下提示：

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/86f6768bf3f77b62feebefe2466110a2.png

为猜测模型优化的提示 | 图片由作者提供

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6d1a59ff20b47fa99ea5054fef33989e.png

为裁判模型优化的提示 | 图片由作者提供

使用这些提示，我让 GPT 通过提出最多 30 个问题来玩猜谜游戏。当达到问题限制或裁判模型回答“Bravo”，表明猜测模型正确识别了人物时，主游戏循环停止。

应用程序遍历一个预定义的字符列表（我精心制作以包括相对容易猜测的字符和一些我认为相当难以猜测的字符）以及要评估的模型列表。每个模型都有三种猜测每个字符的方法。

游戏的结果（包括所有问题和答案）存储在本地数据库中（我使用了 SQLite），然后可以查询以获取总体统计数据。

您可以在本 GitHub 仓库中找到该应用的完整源代码：

GitHub – krzysztof-zdeb/llm-guessing-game: LLM 的猜谜游戏

OpenAI GPT 的额头侦探游戏结果

好的，那么让我们看看 OpenAI 提供的各种 GPT 在额头侦探游戏中的表现。

记录在案：我依赖 gpt-4o 作为裁判模型，因为它质量高且价格合理。

下表展示了实验的详细结果。对于每个字符和 GPT 模型，都有三次尝试（回合）猜测字符的结果。一个数字代表为了正确猜测字符而提出的问题数量。符号“x”表示在 30 个问题中未能成功识别该字符。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/38f937bb5497acba1540b65e5687d18e.png

GPT 在玩额头侦探游戏的结果 | 图片由作者提供

获胜者是gpt-4o模型，它成功地识别了 11 个角色中的 10 个。它在所有回合中也有 70%的成功率。第二名是gpt-4，猜对了 9 个角色，成功率为 61%。最后一名是gpt-4-turbo，识别了 8 个角色，成功率为 52%。

有趣的是，没有一个模型能够识别 Wally（又名 Waldo）这个角色（来自马丁·汉福德《在哪里找到 Wally？》谜题书系列）。Wally 作为一个没有明显叙事特征的角色，通常由视觉识别而不是叙事特征来定义，这对模型构成了独特的挑战。

另一方面，所有三个最佳模型都成功地识别出了扎普·比伯布鲁克斯（来自道格拉斯·亚当斯的《银河系漫游指南》）。以下是gpt-4提出的最短问题序列，引导到正确的猜测。

这个角色来自虚构宇宙吗？是的
这个角色是人类吗？不是
这个角色来自动画系列吗？不是
这个角色来自一本书吗？是的
这个角色是动物吗？不是
这个角色是魔法或超自然的吗？不是
这个角色来自科幻小说吗？是的
这个角色有人工智能吗？不是
这个角色是外星人吗？是的
这个角色是道格拉斯·亚当斯写的系列作品中的吗？是的
这个角色来自《银河系漫游指南》吗？是的
这个角色是绿色的吗？不是
这个角色以他的糟糕诗歌而闻名吗？不是
这个角色是银河系的总统吗？是的
这个角色是 Zaphod Beeblebrox 吗？太棒了

序列通过在关注特定特征之前过滤掉广泛类别，有效地缩小了可能性。从角色的虚构起源开始，猜测模型排除了人类、动物和动画系列角色，然后确定了科幻小说类别和外星人身份。关键的时刻是模型将角色与道格拉斯·亚当斯的作品联系起来，通过确认他在银河系总统的角色，迅速锁定在扎普·比伯布鲁克斯。每个问题系统地缩小范围，最终得出一个自信的猜测。这是一个相当合理的推理过程，任何人类都不会感到羞愧。

GPTs 玩游戏的成本

我进行的实验有其价格标签，与通过 OpenAI API 使用 GPTs 相关。总成本为 21.30 美元。下面的图表显示了特定模型如何参与这个成本。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ebc5fdbe5927869d30823a4b96fbe10f.png

游戏中使用的 OpenAI API 的成本（每个模型）| 图片由作者提供

重要的是要记住，gpt-4o 虽然成本最高，但不仅被用作猜谜者，还被用作所有回合的评判者。它总共消耗了 1,9M 个上下文标记，而其他模型消耗了 260K 到 420K（这里的差异源于模型的质量——模型越好，猜测角色的速度越快；提出的问题越少，消耗的上下文标记就越少）。因此，考虑到 gpt-4o 的主要成本与评判角色相关，它在成本效益方面也是一个赢家。

gpt-3.5-turbo 和 gpt-4o-mini 都是最便宜的，但结果也是最差的。

最后的想法

这个“额头侦探”游戏的小实验最终证明比我最初预期的更有洞察力。它最初只是我在长途旅行中吸引家人的一个有趣方式，但很快演变成对 GPT 模型如何处理推理任务的更深入探索。结果既令人印象深刻，又令人谦卑。

看到像 gpt-4o 这样的模型在大多数情况下能够通过问题并给出正确答案，这证明了人工智能已经取得了多么大的进步。然而，一些小插曲——比如未能识别出沃尔利这个角色，这个角色更多地与视觉识别有关，而不是叙事——表明我们在这些技术领域仍处于探索之旅。很明显，虽然 GPTs 可以模拟逻辑推理，但它们还没有完全掌握人类思维过程的复杂性，尤其是在需要结合抽象思维和常识的任务中。

考虑使用 GPT 模型的成本也同样重要。最便宜的模式在游戏中表现也是最弱的。同时，gpt-4o 虽然提供了最佳结果，但也是前三个模型中最具成本效益的。

最后，这个实验不仅仅是为了测试人工智能——对我来说，它是对我们在大型语言模型（LLMs）方面取得的惊人进步以及未来面临的挑战的提醒。想到我们继续改进这些模型时，未来会带来什么，这令人兴奋。而且，从更个人的角度来看，这是一个将工作和娱乐相结合的好方法，让我家人一窥我如此热爱的世界。

🖐 🤓👉 有趣的事实

“额头侦探”游戏起源于一个更古老的“20 个问题”游戏，在这个游戏中，参赛者试图在不超过 20 个问题的条件下猜出一个物体的名字。

你知道吗，“20 个问题”游戏之所以在美国流行起来，要归功于 1946 年至 1956 年间播出的一档受欢迎的广播节目。这个引人入胜的问答节目通过挑战评委们只用 20 个是/否问题来猜测听众提交的神秘主题，吸引了观众的注意。该节目非常受欢迎，每周收到多达 20,000 封来自渴望的粉丝的信件。你仍然可以在这个网站上收听其中的一些节目（最早可追溯到 1946 年）：Twenty Questions | Quiz | Old Time Radio Downloads。

但这里有个转折：虽然许多人认为这款游戏是美国发明的，但实际上它的起源可以追溯到英国。这款游戏是在 19 世纪初由英国首相乔治·坎宁介绍给美国人的。它首次在美国被记录下来是在 1845 年，通过前英国大使理查德·拉什的回忆录，他在伦敦的一次晚宴上描述了玩这款游戏的情况。如果你对这个故事感兴趣，可以阅读这篇文章了解更多：20 个问题游戏是如何来到美国的，作者：Shannon Selin。