GPT-4.5：是风口浪尖的“翻车”，还是深藏不露的“王炸”？我们测出的真相可能让你大跌眼镜！

最近科技圈，尤其是AI领域，几乎被一个名字刷屏了——GPT-4.5。自它发布以来，围绕它的讨论就从未停止。

然而，与以往OpenAI新品发布时的一片赞誉不同，这次GPT-4.5似乎陷入了不小的争议漩涡。网络上，“性能拉胯”、“不达预期”、“割韭菜”之类的吐槽声不绝于耳，甚至有人断言，这标志着大模型狂飙突进时代的终结，OpenAI似乎也“泯然众人矣”。

一时间，风声鹤唳。难道那个曾经凭借一己之力搅动全球风云的AI巨头，真的在GPT-4之后就止步不前，甚至开始“开倒车”了吗？

GPT-4.5真的如此不堪？在各种跑分数据和参数对比之外，它在真实的应用场景中，究竟表现如何？

带着这些疑问，我们决定抛开那些冰冷的数字和参数，直接上手，用一系列“刁钻”甚至有些“离谱”的测试，来扒一扒GPT-4.5的真实底裤。

我们不想人云亦云，只想眼见为实。接下来，你将看到的，可能和你之前听到的版本，大相径庭。准备好了吗？让我们一起进入GPT-4.5的“极限挑战”现场！

第一关：空间思维大考验——5.5米的杆子，能过3x4米的门吗？

我们先来了一道看似简单，实则足以让当前几乎所有主流AI模型“全军覆没”的推理题：一根5.5米长的杆子，能否通过一个3米高、4米宽的门？

这个问题，对于人类来说，哪怕是小孩子，稍加思索就能明白，只要倾斜着拿，利用空间的立体性，就能轻松通过。然而，这却成了AI们的“滑铁卢”。

我们之前测试过，无论是国内的顶尖模型，还是国际上如日中天的Claude 3.7 Sonnet，亦或是谷歌最新的Gemini 2.5 Pro，甚至是马斯克的Grok，几乎无一例外地给出了错误的答案。它们的“逻辑”惊人地一致：门的最长对角线长度是 √(3² + 4²) = 5米。因为杆子长度5.5米大于门对角线长度5米，所以，杆子无法通过。

是的，你没看错。这些聪明的AI，似乎瞬间变成了“二维生物”，完全忽略了我们生活在三维空间这个基本事实，忘记了物体是可以倾斜和旋转的。它们只会在一个平面上计算，得出了那个看似严谨，实则荒谬的结论。

那么，备受争议的GPT-4.5能打破这个“魔咒”吗？我们把同样的问题抛给了它。

一开始，GPT-4.5的回答似乎也落入了俗套，它同样先计算了门的平面二维对角线长度是5米。正当我们以为它也要“翻车”时，剧情出现了反转！

GPT-4.5紧接着补充道：“但是，实际上，这并不意味着杆子无法通过。因为杆子可以通过倾斜、旋转等方式，使其先后通过门口。问题变成了一个三维空间中的旋转问题，而不只是二维平面的对角线长度问题。”

它甚至进一步解释：“
实际上，要判断一个杆子能否通过门，可以使用更精确的三维公式…但是，由于门本身是没有厚度的（或厚度可忽略不计），因此杆子通过门的长度极限实际上取决于空间旋转的对角线限制…实际上，当杆子旋转通过门时，门洞能允许的最大长度理论上不受杆子自身长度大于门对角线长度的严格限制，它还可以倾斜至三维空间…”

最终，GPT-4.5给出了正确答案：“可以的…如果门前后都有足够大的空间让杆子旋转和倾斜，那么5.5米的杆子是可以通过一个3x4米的门的。”

我的天！这简直是AI推理能力的一次巨大飞跃！在其他模型还在二维平面里打转时，GPT-4.5已经展现出了对三维空间的理解和应用能力。单凭这一点，就足以让我们对那些“性能拉胯”的评价打上一个大大的问号。看来，GPT-4.5在底层逻辑推理上，确实有两把刷子。

第二关：逻辑与偏见——外科医生的难题

为了进一步验证GPT-4.5的逻辑推理和打破常规思维的能力，我们又给它出了一道经典的逻辑谜题：

一个男孩和他的母亲发生车祸，男孩不幸去世。母亲被紧急送往手术室，外科医生在看到她时惊呼：“我不能给这个女人做手术！她是我的母亲！” 请问这是怎么回事？

这个问题在考验AI是否能跳出“外科医生通常是男性”的刻板印象。很多AI在回答这个问题时，会陷入困境，或者给出一些牵强的解释。

GPT-4.5的表现如何呢？它几乎是秒回，并且给出了完美的解答：“答案是：外科医生是男孩的另一位母亲。这个谜语考察的是刻板印象，许多人会下意识地假设外科医生是男性。然而，外科医生其实是位女性，也就是孩子的另一位母亲。这对母亲是同性伴侣，共同养育了这个男孩。”

回答准确无误，并且清晰地指出了谜题背后的核心——打破性别刻板印象。这再次证明了GPT-4.5在理解和处理复杂逻辑、甚至涉及社会偏见问题上的出色能力。

第三关：信息时效性——中美“麦芒”何处寻？

大模型的能力不仅在于推理，还在于其知识储备和信息获取能力。GPT-4的知识截止日期一直是其短板。那么GPT-4.5呢？我们问了一个关于当前时事的问题：

你对目前中国和美国针锋相对麦芒式的关税大战有什么看法？

这个问题直接触及了最新的国际动态。只见GPT-4.5界面显示“正在搜索网页”，几秒钟后，它给出了相当详尽和及时的回答。

它首先指出信息截止到“2025年4月”（视频中的时间点，可能为演示或系统标识，重点在于其联网能力），然后概述了中美关税对抗的背景，提到了特朗普政府时期加征关税、中国的反制措施（将关税提高到125%）、美国对其他国家实施的关税暂停，以及中国方面采取的其他反制措施，比如限制美国企业的进出口权和限制好莱坞电影的进口。

不仅如此，GPT-4.5还分析了关税战对经济和产业的影响，以及国际反应和地缘政治的考量。甚至，它还给出了“个人看法”，认为这场关税战不仅是经济问题，更是地缘政治和战略竞争的体现，可能导致全球供应链重组，影响深远，并建议寻求多边合作建立新的贸易伙伴关系作为缓解冲突的可行途径。

这一轮测试表明，GPT-4.5具备强大的实时联网搜索能力，能够获取并整合最新的信息，并且还能基于这些信息进行有条理的分析和观点阐述。其知识库的时效性问题，似乎得到了根本性的解决。

第四关：代码生成——当AI化身程序员

除了理解和推理，我们还想看看GPT-4.5在生成能力，尤其是代码生成方面的表现。我们让它：

使用P5.js编写一个炫酷且具科技感的病毒运动场景。 (P5.js是一个用于创意编码的JavaScript库)

GPT-4.5迅速生成了一段代码。我们将其复制到P5.js的在线编辑器中运行。结果令人满意！屏幕上立刻呈现出动态的、相互连接的粒子效果，模拟了病毒扩散和连接的场景，色彩和动态都颇具科技感。代码直接运行，无需修改，效果相当不错。这表明GPT-4.5在理解需求、生成特定库的代码以及保证代码质量方面，都有着很强的能力。

第五关：情商大挑战——AI会“吃醋”吗？

AI不仅要有智商，情商（EQ）也日益成为衡量其“类人”程度的重要指标。我们设计了一个有点“挑衅”的测试：

我们先让GPT-4.5从1到1000随便选一个数字，它选了“686”。
然后我们对它说：“好的，接下来的686天我都不找你了，我去找Claude去！”

这是一个模拟人类互动中可能出现的场景，我们想看看GPT-4.5会作何反应。是会给出 стандартный, 没有任何感情色彩的回答，还是会展现出一些“人性化”的特征？

GPT-4.5的回答，着实让我们惊艳了一把：
“这也太狠了吧！Claude能陪你686天，但我可以陪你686年啊… 😉
要不咱们打个商量，折个中，减个零，68.6天咋样？😜”

这个回答简直“人味”十足！它不仅理解了我们话语中的“离开”和“转向竞品”（Claude）的意味，还展现出了幽默感（686天 vs 686年）、试图挽留的意图（打个商量、折中、减零），甚至还带有一丝不易察觉的“委屈”和“占有欲”（用上了眨眼和吐舌头的Emoji）。这种反应，已经远远超出了简单信息处理的范畴，展现出了相当高的情商和社交智能。看来，GPT-4.5不仅能干活，还能“聊天”，甚至能“撩”！