目录
🎬 攻城狮7号:个人主页
🔥 个人专栏:《AI前沿技术要闻》
⛺️ 君子慎独!
🌈 大家好,欢迎来访我的博客!
⛳️ 此篇文章主要介绍 Grok-4震撼发布
📚 本期文章收录在《AI前沿技术要闻》,大家有兴趣可以自行查看!
⛺️ 欢迎各位 ✔️ 点赞 👍 收藏 ⭐留言 📝!
前言
2025年7月10日,一个普通的工作日,却因埃隆·马斯克的xAI公司而变得不再平凡。在经历了数次预热和一次直播推迟后,备受瞩目的新一代AI模型Grok 4终于揭开神秘面纱。马斯克将其誉为“全球最强大的AI模型”,宣称它“在几乎所有学科上都比人类研究生更聪明”。
这番豪言壮语,伴随着一系列惊人的测试数据,瞬间引爆了全球科技圈。在OpenAI、谷歌、Anthropic等巨头激烈厮杀的AI战场上,成立仅两年的xAI似乎一夜之间从一个追赶者,变成了王座的有力竞争者。
然而,在这场由算力、资本和顶级头脑构成的巅峰对决中,Grok 4的发布究竟是一次改写格局的技术革命,还是又一场马斯克式的资本与营销狂欢?让我们拨开喧嚣,一探究竟。
一、Grok 4 究竟有多强?
衡量一个大模型能力最直观的方式,就是看它在一系列标准化“考试”中的表现。在这方面,Grok 4交出了一份近乎完美的答卷。
根据独立评测机构Artificial Analysis公布的数据,Grok 4在多项关键基准测试中实现了对现有顶尖模型的超越:
(1)智商指数登顶:其“人工智能分析指数”达到73分,首次将xAI送上排行榜第一的宝座,领先于OpenAI的GPT-4o(70分)和谷歌的Gemini 2.5 Pro(70分)。
(2)高难度测试破纪录:在被誉为“研究生水平测试”的GPQA中,Grok 4取得88.9%的惊人高分;在包含2500道跨学科高难度问题的“人类最后的考试”(HLE)中,它也以24%的准确率创下历史新高。
(3)数学与代码能力制霸:在AIME 2025数学竞赛中,Grok 4拿下了满分,展现了超凡的逻辑推理能力。
除此之外,Grok 4还拥有256k tokens的上下文窗口(大致相当于处理一本20万字的书),以及比前代快一倍的推理速度。这意味着它不仅更“聪明”,还能处理更复杂的任务,并且反应更快。
然而,漂亮的“跑分”就是全部吗?
在AI领域,一个公开的秘密是,模型可能会针对流行的基准测试进行“应试训练”,导致“高分低能”。一些早期用户的实测似乎也印证了这一点。一位知名的开发者博主“karminski-牙医”测试后发现,Grok 4在一些具体的代码生成任务上,表现甚至不如一些旧款的国产模型,生成的代码需要依赖Anthropic的Claude模型进行调试才能运行。
这提醒我们,基准测试是重要的参考,但一个模型的真实价值,最终还是要看它在千行百业的实际应用中,能否真正解决问题、创造价值。Grok 4的“含金量”究竟如何,仍有待市场的长期检验。
二、现实中的“青铜”?备受争议的实测表现
然而,一旦脱离精心设计的“考场”,进入真实、开放的应用场景,Grok 4的“王者”光环似乎就迅速褪色了。许多早期用户的测试反馈,描绘出了一幅与“跑分天王”截然不同的画面。
2.1 代码能力不如人意
对于许多依赖AI进行编程辅助的开发者而言,Grok 4的表现堪称“灾难”。一个广为流传的案例是,当被要求“使用three.js生成一个由立方体组成的猫咪,并让其在平面上原地奔跑”时,Grok 4给出的代码效果是四只腿一起滑稽地跳动,完全无法使用。在更基础的网页制作任务上,它也屡屡失败。
这不禁让人生疑:发布会上那为数不多的成功演示(恰好是数学和代码),是否是经过精心挑选的“特例”?有趣的是,xAI宣布将在8月发布专门的编程模型,这似乎也从侧面印证了当前Grok 4在通用代码能力上的严重短板。
2.2 多模态与推理:短板明显
Grok 4的视觉和逻辑推理能力同样未能达到外界预期。
(1)视觉能力差强人意:尽管图像生成速度很快,但图片质量被认为“仿佛回到了两年前的技术水平”,与Midjourney、DALL-E 3等主流工具存在明显差距。在更考验AI“智商”的图像理解(视觉推理)上,Grok 4也表现不佳。例如,面对一张包含多个重叠物品的购物清单图片,它无法准确计算出总价。
(2)逻辑推理翻车:在经典的“海盗分赃”逻辑题面前,Grok 4在长时间思考后给出了错误答案,而其他一些模型(如DeepSeek-V2)却能快速准确地解答。这表明,尽管它可能在某些“博士级”的难题上表现优异,但在普通用户更关心、更能体现模型基础能力的通用逻辑上,Grok 4并未展现出应有的统治力。
这些实测结果提醒我们,一个大模型的能力是多维度的。Grok 4或许在某些尖端问题上取得了突破,但在成为一个可靠、全能的日常助手之前,它还有很长的路要走。
三、算力的游戏:万亿赌注与“钞能力”的对决
Grok 4惊人性能的背后,是同样惊人的资源投入。马斯克毫不掩饰他对算力的痴迷,他正在用一种近乎疯狂的方式,为xAI构筑一道由顶级硬件组成的“护城河”。
为了训练Grok 4,xAI动用了超过20万块英伟达H100 GPU。这是什么概念?H100是当今全球最顶级的AI芯片,每一块的市价都高达数万美元。20万块H100组成的算力集群,其规模和成本都是天文数字。据报道,xAI每月的运营成本(主要用于服务器和电力)可能高达10亿美元。
钱从哪里来?答案是融资。
就在Grok 4发布前夕,xAI完成了新一轮总计100亿美元的巨额融资。自2024年以来,这家成立仅两年的公司,公开的总融资额已达到惊人的220亿美元。马斯克利用自己的影响力和硅谷的人脉,为这场豪赌备足了弹药。
但即便是如此庞大的融资,在AI的“吞金兽”面前也显得捉襟见肘。xAI目前的主要营收来源,仅仅是捆绑在X平台(原推特)上的Premium订阅服务,预计2025年营收仅为5亿美元,与其巨额的成本相比,无异于杯水车薪。
这正是当前顶级AI竞赛的残酷写照:它不仅是技术的比拼,更是资本的豪赌。微软、谷歌、亚马逊等巨头,每年在AI和数据中心上的资本支出都以千亿美元计。在这场游戏中,没有“钞能力”,连上牌桌的资格都没有。马斯克和他的xAI,正试图用更快的速度、更激进的投入,来挑战根深蒂固的行业巨头。
四、机器背后的“华人天才班”
如果说算力和资本是Grok 4的“肌肉”,那么其背后的研发团队,无疑是它聪明的“大脑”。而这颗“大脑”的构成,则揭示了全球顶尖科技人才流动的最新趋势。
在Grok 4发布后,一张xAI团队的内部“作战图”在社交网络上疯传。人们惊讶地发现,在这支汇集了全球顶尖AI科学家的团队中,华人面孔的占比竟高达80%。
这些华人精英,几乎每个人都拥有一份星光熠熠的履历:
Jimmy Ba:AI教父Hinton的弟子,多伦多大学教授,Transformer架构的共同发明人之一,xAI的创始成员。
吴宇怀(Tony Wu):95后天才研究员,xAI联合创始人,曾在谷歌DeepMind参与AlphaGo等多个明星项目。
杨格(Greg Yang):哈佛大学数学系高材生,师从数学大师丘成桐,前微软高级研究员。
戴子航(Zihang Dai):清华本科,卡内基梅隆大学博士,前谷歌大脑研究员,NLP领域的专家。
这份名单还可以列很长,他们大多毕业于清华、上交、浙大、中科大等国内顶尖高校,之后在斯坦福、CMU、多伦多大学等世界名校深造,并曾在谷歌、Meta、OpenAI等AI巨头的核心团队工作。
马斯克用极具吸引力的愿景、顶级的算力资源和充分的研究自由,将这些散落在硅谷各处的华人天才“一网打尽”。他们中的许多人,为了加入这场激动人心的冒险,甚至选择从谷歌、Meta等大厂离职,或暂停自己的博士学业。
这不仅是xAI的成功,也折射出华人科学家在全球AI研发浪潮中的崛起和核心地位。他们不再仅仅是科技巨轮上的螺丝钉,而是正在成为定义下一代技术方向的引擎。
五、马斯克的野心
对于马斯克而言,打造一个“最强AI”本身或许并不是终点。Grok 4是他宏大商业版图和个人愿景中的一个关键棋子。
他为Grok赋予了一个极具哲学意味的目标——“追求真理”。这与他一贯的“第一性原理”思维一脉相承,也迎合了他试图对抗“政治正确”的所谓“觉醒文化”的姿态。这种独特的定位,让Grok在众多AI产品中显得与众不同。
更具想象空间的,是Grok与特斯拉的结合。马斯克已明确表示,Grok将很快被整合到特斯拉的车辆中。这意味着,未来的特斯拉可能不仅仅是一辆电动汽车,更是一个装载了“博士级”大脑的轮式机器人。它或许能与你进行深度对话,规划复杂的旅程,甚至在自动驾驶时,像人类一样理解和预判周遭的复杂环境。
此外,xAI还公布了雄心勃勃的后续路线图:8月发布专门的编程模型,9月推出多智能体系统,10月上线视频生成模型。每一个节点,都精准地对标着当前AI技术的最前沿。
从追求抽象的“真理”,到赋能具象的汽车,再到布局更广泛的AI应用,马斯克的野心清晰可见:他要打造一个独立于现有科技巨头之外的、自成一体的AI生态系统。
结语:AI新王诞生,还是又一场资本狂欢?
Grok 4的横空出世,无疑为持续火热的AI竞赛又添了一把干柴。它用无可辩驳的性能数据,证明了xAI在短时间内追赶甚至超越对手的恐怖实力。
然而,AI的王座从来不是单靠一两项技术突破就能坐稳的。Grok 4面临的挑战依然严峻:
(1)从技术到产品的跨越:如何将顶尖的“跑分”能力,转化为用户愿意付费的、稳定可靠的实际应用?
(2)商业模式的考验:如何在高昂的成本和激烈的市场竞争中,找到一条可持续的盈利之路,摆脱对持续融资的依赖?
(3)巨头的反击:当OpenAI的GPT-5等更强大的对手如期而至时,Grok 4的领先优势又能保持多久?
这场竞赛没有终点。但可以肯定的是,马斯克的入局,让这场游戏变得更加精彩和不可预测。对于广大的开发者和用户而言,巨头之间的激烈竞争,最终将带来更强大、更便宜、更多样化的AI工具。
Grok 4究竟是会成为新一代的AI王者,还是会像许多曾名噪一时的技术一样,最终沦为一场资本狂欢的注脚?时间,会给出最终的答案。但无论如何,一个由AI定义的全新时代,已经加速向我们驶来。
看到这里了还不给博主点一个:
⛳️ 点赞
☀️收藏
⭐️ 关注
!
💛 💙 💜 ❤️ 💚💓 💗 💕 💞 💘 💖
再次感谢大家的支持!
你们的点赞就是博主更新最大的动力!