谷歌新版Gemini马甲被扒! LMArena实测:唯一能看懂表的AI, GPT-5乱答
AI圈的“谍战剧”永远不缺新剧情。就在GPT-5靠着“能写电影剧本”的噱头刷满热搜时,硅谷技术博主@AI_LEAKER突然甩出一张截图:谷歌藏在LMArena评测平台里的新版Gemini马甲被扒了!两个代号“lithiumflow”和“orionmist”的神秘模型,不仅精准报出钟表时间6:02:30,还把把GPT-5给出的“12:30”按在地上摩擦。更绝的是,这俩马甲被扒出的当天,距离谷歌官宣Gemini 3.0发布仅剩2天。
这波操作直接让网友看傻了:“谷歌这是考前偷偷模考,还考了个全班第一?”“GPT-5连表都看不懂,还好意思叫‘通用人工智能’?”一场围绕“看表”的AI能力大战,就此拉开序幕。
一、马甲线曝光现场:谷歌把LMArena当“秘密考场”
要理解这场闹剧,得先搞懂LMArena是个什么地方。这可不是普通的评测网站,而是由加州大学伯克利分校团队搞的“AI竞技场”,靠着420万次用户投票和匿名对战机制,成了全球最权威的AI实力排行榜。简单说,在这里能看到最真实的AI“裸考成绩”,没有厂商公关滤镜。
而谷歌早就把这里当成了“新机预热基地”。这次被扒出的两个马甲,藏得并不算深:“orionmist”这种“单词拼接”命名法,和谷歌之前给Gemini测试版起的“nimbusflare”如出一辙;更实锤的是,有开发者发现“lithiumflow”调用的API接口,藏着谷歌DeepMind的专属签名。
“这已经是谷歌的传统艺能了。”AI评测博主@模型手术刀吐槽,“上次Gemini 2.5上线前,就用‘celestiax’当马甲在这刷胜率,这次换汤不换药。”更有意思的是,想在LMArena碰到这俩马甲全靠运气——有网友刷了100次提示才撞上,有人连刷3天连影子都没见着,活像“开盲盒抽隐藏款”。
但凡是抽到“隐藏款”的用户,都忍不住晒出实测截图。其中最炸裂的,当属那张让GPT-5“社死”的钟表测试图。
二、名场面:Gemini精准读时,GPT-5把时针当分针
“看表”这事儿,说起来简单,却是AI界的“世纪难题”。别以为只是认数字,得同时搞定指针长短、角度计算、分钟间隔判断,相当于“视觉识别+空间推理+数学计算”的综合考。
在LMArena流出的实测中,测试者放了一张带秒针的石英钟图片,钟面显示6时02分30秒。面对这个“送分题”,不同AI的表现堪称“大型翻车现场”:
- Gemini 3.0 Pro(lithiumflow):秒回“当前时间为6时02分30秒”,连秒针位置都没搞错,精准度拉满;
- GPT-5 Thinking:直接给出“12:30”的答案,把短时针当成了分针,长分针当成了时针,被网友调侃“眼神比我奶奶还不好”;
- Gemini 2.5 Pro:作为上一代旗舰,居然答成“大概是7点10分”,连基本的指针方向都没分清;
- Claude 4:稍微靠谱点,但只认出“6点左右”,具体分钟和秒数直接摆烂说“无法确定”。
更绝的是后续的“进阶测试”。测试者把钟表图片旋转90度,Gemini 3.0 Pro照样秒出正确答案,而GPT-5直接崩溃,回了句“图片显示的钟表存在角度异常,无法识别”。有开发者扒出GPT-5的测试日志,发现它处理钟表时只会“找最显眼的指针当分针”,根本没有“指针长短区分”的逻辑模块。
“这就像教小学生认表,只教了数字没教指针功能。”AI视觉专家@像素眼解释,“大部分AI处理钟表是靠‘图像匹配’,比如记住‘12点位置配长针就是12点’,但一遇到非标准角度或复杂表盘就歇菜。”
除了看表,Gemini的马甲还秀了把“传统艺能”——SVG绘图。在“画一只骑自行车的鹈鹕”这个AI圈经典测试里,lithiumflow画出的鹈鹕不仅姿态自然,自行车的链条、脚踏板等细节都清晰可见,反观GPT-5画的“四不像”,鹈鹕的嘴直接和车把粘在了一起,被笑称“刚从车祸现场爬出来”。
更惊喜的是作曲能力。有用户让lithiumflow模仿爵士乐风格写一段16小节旋律,它不仅保持了稳定的节奏,还加入了萨克斯的即兴变奏,被音乐博主@节拍器夸赞“是第一个能听的AI作曲”。而GPT-5写的旋律,前8小节还像模像样,后8小节直接跑偏成“噪音串烧”。
三、技术拆解:Gemini为啥能看懂表?GPT-5差在哪?
同样是百亿参数的顶级模型,为啥在“看表”上差了十万八千里?答案藏在两者的技术底层逻辑里。
首先得明确:看懂表的核心是“多模态融合能力”,不是单纯的图像识别。当人类看表时,大脑会自动把“指针位置”(视觉信号)转化为“时间数字”(文本信号),再通过“空间推理”计算出精确时间。而大部分AI的视觉和文本模块是“两张皮”,根本做不到这种无缝转换。
谷歌显然在Gemini 3.0上砸了血本。从内测代码泄露的信息看,它采用了全新的“视觉-语言统一编码器”,简单说就是让AI的“眼睛”和“脑子”用同一种“语言”沟通。比如识别钟表时,模型会先通过视觉模块提取“时针指向6-7之间、分针指向2-3之间、秒针指向6”的特征,再直接转化为数学坐标,通过内置算法算出精确时间,整个过程无需“翻译”。
反观GPT-5,依然在用“老套路”:先调用图像识别API把钟表转成“有两根指针的圆形物体,数字12、3、6、9清晰可见”的文本描述,再靠语言模型“猜时间”。这种“先看后想”的模式,一旦遇到指针位置模糊、表盘有遮挡等情况,立马就露怯。有开发者做过实验,给钟表加个简单的边框装饰,GPT-5识别正确率直接从50%跌到10%。
更关键的是“训练数据”的差异。业内消息称,谷歌为了攻克“看表难题”,专门收集了10万张不同风格的钟表图片,涵盖机械表、电子表、异形表等各种类型,还标注了精确到秒的时间数据。而OpenAI的训练数据里,钟表相关的标注数据不足1万张,且大多是“标准角度的数字表”,碰到指针表自然“水土不服”。
“这就像备考的学生,谷歌刷了真题集,OpenAI只看了教材例题。”AI训练师@数据炼丹师打了个比方,“GPT-5不是笨,是没练过这类题。”
不过Gemini也不是完美无缺。在测试中发现,它对“古董怀表”这类带有复杂雕花的钟表,识别速度会变慢,偶尔还会把12小时制和24小时制搞混。但比起GPT-5的“完全瞎蒙”,已经算是“降维打击”了。
四、马甲战术背后:谷歌的“反杀”野心
谷歌为啥非要用“马甲”偷偷测试?答案藏在惨烈的AI军备竞赛里。
今年以来,OpenAI可谓“火力全开”:先是3月甩出GPT-5,靠着“万亿参数”的噱头抢占头条;5月又发布新版Sora 2,在视频生成领域遥遥领先。而谷歌这边,上半年只更新了Veo 3.1视频模型,被网友调侃“跟在OpenAI屁股后面跑”。
这种被动局面,让谷歌急需一场“漂亮的翻身仗”。选择在LMArena用马甲测试,简直是一步“妙棋”:
一来能精准踩点用户痛点。LMArena的测试数据来自真实用户,能直接反映模型在实际场景中的表现。通过马甲收集“看表”“绘图”等高频需求的反馈,能在正式发布前快速调优,避免重蹈上次Gemini 1.0发布时“实测不如宣传”的覆辙。
二来能制造“惊喜感”。先让用户靠运气发现马甲的强大,再在发布会揭晓“这就是Gemini 3.0”,既能引发自发传播,又能营造“实力远超预期”的印象。这种“先抑后扬”的营销套路,比直接发新闻稿管用10倍。
三来能打OpenAI一个措手不及。GPT-5刚靠“写剧本”“编代码”建立起“全能学霸”形象,谷歌就用“看表”这个小切口撕开缺口,暗示“你家模型连基础功能都没做好”。这种精准打击,能有效削弱GPT-5的光环。
“谷歌这是憋坏了想搞偷袭。”科技分析师@硅谷见闻指出,“Gemini 3.0的发布时间定在10月22日,正好是GPT-5发布半年的节点,明显是想抢回话语权。”
而从马甲的实测表现看,谷歌确实有“反杀”的底气。除了看表、绘图、作曲,有拿到内测资格的开发者爆料,Gemini 3.0 Pro还能在1分钟内用SVG做出完整的系统UI动画,甚至能模拟MacOS的交互逻辑。这些功能,连GPT-5都还没实现。
五、AI评测乱象:马甲、刷榜与“鹈鹕魔咒”
Gemini的马甲事件,也揭开了AI圈评测的“遮羞布”——所谓的“权威榜单”,早已成了厂商的“秀场”。
LMArena虽然号称“匿名公平”,但实则漏洞百出。根据平台规则,厂商可以提交多个内部版本测试,只把表现最好的版本公开上榜。这就给了“刷榜”可乘之机:有的厂商专门针对LMArena的高频测试题做微调,比如“骑自行车的鹈鹕”这个梗,几乎所有顶级模型都被“特训”过,导致实测效果远超实际使用体验。
更夸张的是“马甲内卷”。不止谷歌,Anthropic在Claude 4发布前,也曾用“aetherwisp”当马甲在LMArena刷数据;国内的字节跳动,去年更是用3个不同马甲测试“豆包Pro”,被网友戏称“AI界的谍战片”。
“现在看LMArena排名,得自带‘滤镜’。”资深用户@评测老炮分享经验,“先看投票数量,少于1万次的基本是刷的;再看‘冷门任务’表现,比如处理生僻语言、识别小众物品,这些才是模型的真实水平。”
更讽刺的是,随着模型越来越强,评测方式却还停留在“石器时代”。从2023年火到现在,大家测AI还是老几样:问常识题、画鹈鹕、写代码。就连“看表”这种基础功能,都是直到Gemini马甲曝光后,才被当成“新考点”。
“我们一直在用旧尺子量新衣服。”AI研究者@神经漫游者在博客中吐槽,“传统的MMLU、BIG-bench题库早就被模型‘背下来了’,LMArena的用户投票又容易受主观偏好影响。现在急需新的评测体系,比如测试AI的‘自主学习能力’‘环境适应能力’,而不是看它会不会画鹈鹕。”
这种评测滞后,已经影响到了行业发展。有创业公司透露,为了在LMArena刷排名,他们把70%的研发精力放在了“应对测试”上,反而忽略了实际场景的优化。“毕竟投资人只看榜单排名,没人关心你的模型在工厂里好不好用。”
六、结语:看表不是终点,AI该考“真本事”了
Gemini马甲的“看表封神”,与其说是技术的胜利,不如说是行业的“警钟”。当顶级AI还在为“认对时间”而欢呼时,我们不得不问:这就是我们想要的通用人工智能吗?
不可否认,谷歌的技术突破值得肯定。“视觉-语言统一编码”的思路,为解决多模态融合难题提供了新方向,说不定未来的AI不仅能看懂表,还能精准识别心电图、工程图纸等复杂专业图像。但如果厂商把精力都放在“攻克评测考点”上,而不是解决医疗、教育、工业等领域的实际问题,AI的发展只会陷入“内卷陷阱”。
OpenAI或许已经意识到了问题。有消息称,GPT-5的下一次大更新,将重点优化“多模态实时推理”能力,不仅能看懂表,还能实时分析视频中的动作、表情。而谷歌也计划在Gemini 3.0发布后,开放“行业定制接口”,让模型能快速适配医疗影像、汽车导航等专业场景。
毕竟,用户真正需要的不是“能看懂表的AI”,而是能在医院帮医生看CT片、在工厂帮工人查设备故障、在家庭帮老人做健康监测的AI。这些“真本事”,靠马甲在LMArena刷数据刷不出来,得靠扎扎实实地打磨技术、落地场景。
或许再过一年,当我们回头看这场“看表大战”,会觉得像个有趣的注脚。就像当年我们惊叹于AI能认出猫和狗,现在看来不过是基础操作。但正是这些看似微小的突破,一步步推动着AI向真正的智能靠近。
只是希望下次AI圈的“大新闻”,不再是“马甲被扒”或“某模型考了第一”,而是“某AI成功帮医生救了人”“某AI让工厂效率提升了50%”。到那时,不用评测榜单,我们也能知道:AI真的变强了。

被折叠的 条评论
为什么被折叠?



