4月5日,Meta 高调发布 Llama 4,宣称其多模态能力与代码生成水平超越 GPT-4.5。并且在大模型竞技场中,排名超过了 DeepSeek,成为开源模型第一名。
【图片来源于网络,侵删】
这次共发布三款模型,首次采用 MoE 架构:
-
Llama 4 Scout,活跃参数17B,16个专家,总参数109B;
-
Llama 4 Maverick,活跃参数17B,128个专家,总参数402B;
-
Llama 4 Behemoth,活跃参数288B,16个专家,总参数2T。
代码能力“翻车”:Meta 遭质疑
发布不到48小时,开发者社区的测试视频就让舆论风向急转直下,主要集中在代码能力的不足。
在经典的小球反弹编程测试中,Llama 4 生成的代码竟让小球直接穿墙而过,物理引擎形同虚设。更讽刺的是,官方宣称在 LiveCodeBench 测评中表现优异的模型,却在第三方测试中成绩垫底。更有网友直言:“这是一个不应该发布的型号。”
【图片来源于网络,侵删】
除了实测翻车之外,还有匿名员工爆料称,为赶在 4 月底交付,Meta 高层授意将多个基准测试集混入训练数据,导致模型严重过拟合。这也动摇了开源社区的信任。毕竟从 Llama 1 开始,数据泄露问题便屡遭诟病。这位匿名员工在辞职信中还表示将拒绝为这份技术报告署名。
另一方面,在 Llama 4 发布前夕,Meta AI 研究主管 Joelle Pineau 突然离职,这位效力 8 年的核心人物出走,被外界解读为对技术路线的无声抗议。
【图片来源于网络,侵删】
开源生态:从信仰到质疑
在 DeepSeek 强势崛起前,Llama 系列曾被视为开源社区的灯塔。然而,在 DeepSeek 掀起了新的开源热潮后,短短几个月时间,大模型领域便已经呈现出日新月异的局面。这让沉寂一年的 Meta 也坐不住了,这次的新动作似乎表明了 Mete 重夺开源霸主的决心。要知道 Meta 旗下最顶级的模型Llama 3.1 405B,是在去年 7 月份发布的。
早在去年,Meta 就声称将用 Llama 3 的十倍计算量,训练下一代多模态 Llama 4。因此,Llama 4 的发布,也一度让很多开发者满怀期待,但频繁爆出的一系列翻车事件,让 Meta 的风评发生了一些转变。
【图片来源于网络,侵删】
对比之下,反而更加凸显了 DeepSeek 的诚意。再加上 DeepSeek 刚刚上新了一篇关于推理时 Scaling Law 的论文,不禁引发了大家对 DeepSeek-R2 的期待。
当然,目前的“翻车”主要指的是代码能力,其他长文本和多模态领域还需要更多的测试案例。
Llama 4 的崩盘,或许进一步印证了技术价值的定义: 真正的生态繁荣源于开发者的信任,而不是榜单刷分。“DeepSeek 们”正用小而美的模型证明——AI 的未来,属于那些尊重技术本质的人。
大家怎么看?欢迎在评论区留言分享你的感受~