多模态不再缝缝补补:文心 5.0 正在重写大模型的“世界观”

背景

我们的日常使用大模型,就像是在不同模型间打补丁:“这个模型会看图,但不会讲故事;那个模型能生成视频,但不懂视频在表达什么。” 于是乎,大致像这样,想用图像模型,就得跑去找midjourney;想做视频模型,又得等 Sora;想让模型理解视频剧情,还得靠那些半懂不懂的“视觉语言拼接模型”;想让模型读情绪,甚至还得给它加一堆“情绪标签的模板提示词”。

而就在昨天,我看完百度文心 5.0 的发布会,突然有种久违的感觉:——国产大模型的世界观,好像真的变了。

**文心 5.0 :“都别吵,你们其实是同一种 token” **

发展

我饶有兴致的去搜了下文心5.0的相关“实力”,原来在 11 月 8 日的 LMArena 更新中,全新的 ERNIE-5.0-Preview-1022 排在文本榜全球并列第二的位置,在国内模型中排名第一,在创意写作、复杂长问题理解、指令遵循等维度都有较明显的优势,整体分数超过了多款国内外的主流模型。

媒体也做了不少实测。11 月 12 日,百度开源了多模态思考模型 ERNIE-4.5-VL-28B-A3B-Thinking,这个模型在 HuggingFace 多模态趋势榜上线 24 小时就升至全球第一。公开基准显示,在多模态理解和复杂推理任务上,其性能在仅 3B 激活参数的情况下已经接近 GPT-5-High 和 Gemini-2.5-Pro。这个模型引入了“图像思考”(Thinking with Images)的方法,使模型能够在图像层面构建更具结构性的推理链路,同时提升场景定位、细节捕捉与指令遵循的稳定性。因此在许多需要多模态统一理解的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值