新版Llama 3 70B反超405B!Meta开卷后训练,谷歌马斯克都来抢镜

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

OpenAI“双12”刚进行到第二天,就把大模型圈搅得好不热闹!

一边是Meta没预告就发布了Llama 3.3,70B版本就能实现以前405B的性能。

f316fc773689447cddf06291975affdc.png

另一边谷歌的Gemini也上线了新的实验版模型,再一次登上大模型竞技场榜首。

69a159120ea553f09b0b07782d4fdb8c.png

有网友感叹,o1、Llama 3.3和新版Gemini接连发布,马斯克的Grok3也要来,还有GPT-4.5初露端倪……这简直是最棒的一个圣诞季。

83c8761ae24809bbf3464ab3cb1b3171.png

Llama 3.3:70B实现405B效果

Llama 3.3目前只有70B一个型号。

但在指令遵循(IFEval)、数学(MATH)、推理(GPQA Diamond)等领域,水平都超过了七月份发布的Llama 3.1 405B

在语言(MMLU)、代码(HumanEval)、长文本和多语种能力上,成绩也和Llama 3.1 405B比较接近。

而在工具使用(BFCL)上,和405B的差距则显得稍大一些。

9723a15ab67191d8fcf79b43fe16cfdb.png

不过,Llama 3.3的使用成本要比Llama 3.1 405B低得多

虽然Llama本身是免费的,但是各个大模型平台的服务价格也可以作为衡量成本的一个参考。

在Meta合作的平台当中,Llama 3.3最便宜的价格是0.1/0.4美元每百万输入/输出Token。

而Llama 3.1 405B,则是1美元每百万输入token,是Llama 3.3的10倍,输出token为1.8美元,是Llama 3.3的4.5倍。

b45a944766f365ceaf6c361209f1320a.png

Meta生成式AI团队领导者Ahmad Al-Dahle表示,Llama 3.3能用70B实现405B的效果,主要是“运用了后训练技术的最新进展”,并点名其中包括在线偏好优化(online preference optimization)。

6ca8eaac233eec72e836d790c0ee64a7.png

Meta AI官方账号也提到,Llama 3.3的进步归功于新的对齐过程和在线强化学习技术的进步。

d0294109346a8c45a023848fa5e7b8dc.png

目前,Llama 3.3的模型权重已在官网和Hugging Face上开放下载。

208292bccee7c9f9f844e4514c2bb1f5.png

Gemini迎来周岁生日

Gemini 1206上线的这天,刚好是Gemini的一周岁生日。

不过,从节奏和以日期命名的方式来看,Gemini更像是一次例行更新(上一个版本是1121)。

当然成绩还是很不错的,直接登上了lmsys大模型竞技场的榜首

23cf0ad9b020fc5cc41b59e54d16a234.png

而且不只是总成绩夺冠,困难提示词、代码、数学、创意写作等各个单项排名也都是第一

877939f0c0376fbb0b31650556aa5612.png

实际上,Gemini此前有个1114版本,也当了一周的“榜一大哥”,后来被更新的GPT-4o给比了下去。

现在的最新版本,又让Gemini重新回到了榜单上的王座。

e7909958c224bb6e2d67904eeb1360d1.png

此外,谷歌AI Studio产品负责人(原OpenAI开发者社区主管)Logan介绍,Gemini 1206拥有2百万token的上下文窗口,目前可通过谷歌AI Studio和Gemini API免费使用。

826c02bdb98b2668f7bb230e96b8234e.png

谷歌首席科学家Jeff Dean表示,取得这样的成绩是对Gemini生日最好的庆祝方式。

221eadfce6d12c4f14f5cf4c5e97e229.png

不过也有网友给谷歌泼了盆冷水,表示o1还没出现在这个榜单上,而且GPT-4.5就要来了,谷歌第一的位置恐怕很快又会被OpenAI夺走。

9834fb9641ad48a2ba0059bd3f945833.png

One More Thing

除了谷歌和Meta,马斯克xAI也被盛传即将发布Grok 3。

有网友发现,正在测试的Grok 2 mini消失了,认为这是要发Grok 3的征兆。

fa564047bb758af43a44b7e22ee09ee2.png

除了对Grok 3的猜测,还有一条更确定的消息——此前要充会员才能用的Grok,现在可以免费用了

不过免费用户用量比较有限,每两小时只能处理10条消息,而图片分析一天只能处理三张。

e84666f196286a13ac654326cfde0038.png

有意思的是,我们试了试询问Grok自己,它也表示Grok 3计划在这个月上线。

但抓马的是,点进后面引用的消息源,发现这名博主也是问Grok之后发的帖子……

2bb27b9c94268e2fe7be95bcecf26a7a.png

那么,在这个发布密集的十二月,你最钟意或者最期待哪一款产品呢?

参考链接:
[1]https://x.com/AIatMeta/status/1865079067390956006
[2]https://x.com/Ahmad_Al_Dahle/status/1865071436630778109
[3]https://x.com/lmarena_ai/status/1865080944455225547

MEET2025大会在即

倒计时一周 ⏰ 欢迎报名

🌟 一年一度的科技顶流盛会就要来了!

☄️ 两场GenAI Talk一场具身智能圆桌,直指时下热门议题!工业界学术界顶流大咖齐聚,还有两份关键参考「年度AI趋势报告」「2024人工智能年度评选」榜单即将发布!了解详情

🚀 点击报名参会,12月11日,期待与您一起预见智能科技新未来!

86cec98af8643ae8a48f4e71c3d7d0f1.png

b1fbdb2992b3e40c716c388a5cb83084.png

a8d6420a52a881a1626d3ccd53020621.png

b4565bf5c5d11946e85b787a8260b26d.png

e76405310544848f5b4508b46eefb82a.png

a15af627cedcb6dd33e7553521e245f6.png

870dd23f6e65d40a032704c899a02c5f.png

64cbdde66b89f4ba8e51a0f9bdf07934.png

b55398abbadded0be33ad638361c31fd.png

e0bf425dc962d0cc3396b16c2ea2a7a0.png

82ae24177993c234073f353dbdc18722.png

77b2464f4da24907d074a3d50c01fc62.png

c978677c31187e25fc9d719e17481255.png

5feb448e3088a59c2bb2af201971b50e.png

31d9e3ef36ffdd0875c05ad64982c2dc.png

32123cd4d73ff0a7669d07f56c0be0d2.png

1c86e7e0ba8fba1808ce0fdf5862e588.png

c03766ad0bc76ec1b8def1cb3d6aead4.png

63c992314e114402c9c07694b26517a2.png

f12e0d51986c2393888830877a395066.png

0cadd61729f2a853bc948b17c37ae108.png

cdd98a78e4ad17e39d67f26f5a7a3242.png

outside_default.png

左右滑动查看最新嘉宾阵容

outside_default.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值