IQ 测试结果
这次感觉不太一样 —— 看起来不像是 Google 又一次失败的发布。我不是想贬低 DeepMind 团队之前的努力,但说实话,他们过去确实没总是达到用户的预期。
就在几周前,Google 发布了 Gemini 2.5 Pro,整个互联网都热闹了起来。也许没有 DeepSeek 或 GPT-4o 那样炸裂,但我得承认,自从 Google 推出 DeepResearch 后,后续的更新一个比一个给力 —— 的确值得一提。
在我前期用提示词测试的很多案例中,结果都出奇地好。很自然,我也忍不住跟别的 AI 比较起来。
有个让我印象特别深的例子,是来自日本的一家医院,用的就是同一套 AI 技术,把医生的笔记转录并总结出来,让护士的文书工作量减少了 42%,也大大缓解了他们的压力。
还有在实验室评估中,Gemini 2.5 居然能解决以前模型都卡住的博士级科学和数学题。
Google 一直都在 AI 竞赛里 —— 常常是在幕后,有时候也被人低估。但现在,似乎他们的高光时刻终于来了。
不过,说到底,光靠我自己的看法 —— 或者对这个新模型的激动 —— 还不够,我们应该仔细看看 Gemini 2.5 真的配得上这些夸赞吗?更重要的是,它能成为我们日常真正在用的工具吗?换句话说,它除了写封邮件、推荐个饭店,能不能做得更多?
超越 GPT-4 和 Claude:Gemini 2.5 的独特之处?
Google 的 Gemini 模型家族是直接对标 GPT-4 而来的,而 2.5 Pro 这个版本,则把这场竞争提升到了新高度。
Gemini 2.5 Pro 之所以特别,是因为它能深入地拆解问题,而不是简单复述训练数据。Google 说这是一个“会思考的模型”,会一步一步地推理、解决难题,再给出最终答案。
“一份分析指出,和 GPT-4、Claude 3 那种靠模式识别生成回应的方式不同,Gemini 2.5 声称自己是有条理地‘思考’之后再答题。”
在实际的基准测试中,Gemini 2.5 Pro 在编程、数学、科学这些领域表现超越了 GPT-4、Anthropic 的 Claude 和其他顶级模型 —— 在像 GPQA 这样的评测中拿下了第一。
Gemini 2.5 Pro 另一个领先点在于它的记忆力。
GPT-4 最长的上下文窗口也就大约 128,000 个 token,Claude 3 差不多 200,000。而 Gemini 2.5 直接甩开它们,提供了惊人的一百万个 token 的上下文窗口 —— 还有计划要翻倍到两百万。
这意味着啥?就是说它能处理整本书、完整代码库、或超大数据集都没问题,不会丢线索。不用再把输入分段,也不用反复提醒 AI 前面讲过啥 —— Gemini 能全程记得住。
有个演示里,Gemini 2.5 成功分析了一份 500 页的 AI 指数报告,还能跨页面比对图表,回答复杂问题。
从本质上讲,Gemini 2.5 是为多模态设计的。GPT-4 和其他模型经常需要不同系统来处理不同类型输入,而 Gemini 2.5 Pro 是个统一的模型,能同时处理文本、图片、音频、视频,甚至是代码。
相比之下,OpenAI 的 GPT-4 图像理解功能有限,要靠插件,而且图像生成是交给 DALL·E 这个单独模型处理的。
话虽如此,OpenAI 和 Anthropic 也不是坐着不动 —— GPT-4 推出了 GPT-4 Turbo,Claude 3 的上下文窗口和能力也在不断升级。
但截至 2025 年初,Gemini 2.5 Pro 还是有足够理由被称作目前最先进的模型。它一上线就在 LM Arena 榜单上高居榜首,领先幅度很大。
Gemini 的强项在于处理复杂、智力要求高的任务 —— 它能多步骤推理、处理代码、轻松应对多模态输入。
Gemini 2.5 实战表现
光有再多基准测试也没用,要是 Gemini 2.5 Pro 解决不了现实中的问题 —— 或至少接近解决。
在企业办公室、内容工作室,Gemini 2.5 已经被证明是个有价值的工具了。比如 FOX Sports 的团队就用了 Gemini 来整理他们海量的视频档案库 —— 差不多有 200 万个剪辑 —— 用来找关键精彩片段或特定时刻。以前是个又慢又繁琐的人工活儿,现在只需要输入自然语言提问。多亏 Gemini 懂得视频的内容和上下文,员工能立刻找出他们想要的画面。
广告圈那边,WPP 广告公司用 Gemini 来生成活动内容。这 AI 接收了 WPP 的品牌规范训练 —— 包括语气、配色、字体、还有过往的案例 —— 然后被要求写出社媒广告文案。
结果怎么样?
Gemini 不仅写出了广告文案,连样图都能自动生成,而且跟品牌调性高度一致。这些内容看上去、听上去都像 WPP 做的,而且几乎没怎么需要人工干预。初步反馈显示,这家广告公司用它能大幅提速,实现个性化营销。
开发者们也在实打实地用 Gemini 2.5 Pro —— 不只是原型阶段,而是在真正的生产环境中。
举个例子,有家物流公司把 Gemini 集成进了路线优化软件,让它智能重新规划送货路线。这个 2025 年 3 月启动的试点非常成功:油耗降低了 15%,准时送达提升了 22%,预计每年能节省 350 万美元,全靠 Gemini 的路线建议。
还有开发者用 Gemini 从一句简单描述出发,直接构建完整的网页应用原型。据一位 AI 专家说,很多人现在就是用一句提示,就能“直接创建完整网页应用”。它还被用来做游戏、设计网站、写营销文案、自动化数据流程 —— 只要用自然语言描述想要的结果就行。
学术和科研界也看上了 Gemini 的潜力。Google 推出了一个叫 Gemini Deep Research 的工具,用的就是 2.5 Pro 模型,它能扫遍全网和学术数据库,为某个主题整理出详尽的研究报告。
在科研质量评估中表现亮眼 —— 甚至还在一个叫“人类最终考试”的超难测试里拿了高分 —— Gemini 2.5 不再只是个编程助理或者聊天机器人。它正逐渐变成一个能帮忙生成新洞见的工具,越来越像个真正的研究伙伴。
最后的想法
综上所述 —— 再加上最新 IQ 测试排名来看 —— 目前 Google 靠 Gemini 2.5 暂时领先。但故事还远没结束。
值得一提的是,就连 Gemini 的创造者们,也一直强调它是用来增强人类能力的工具,不是要取代人类(虽然这句话我们已经听过无数次了)。
真正的挑战是,我们怎么把这么强大的技术,融入社会最重要的系统 —— 比如教育、科研、还有伦理决策。
最后,最关键的答案,不会来自 Gemini 本身,而取决于我们在这个 AI 时代做出的选择。火已经点燃 —— 接下来怎么烧,就看我们了。