OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步思考

75559724899746aa922087e83d5d5a41.jpg

OpenAI o3就这么 “duang”的一下来了,相关的各种评测和报告资讯一大堆,所展露的“震撼”或简单粗暴的某种工业或工程学“组合堆叠”就不多说了,在这里还是主要还是想跟大家聊聊技术本身。

76b1906d30ef47ddb7d93b425118ca68.jpg

今天凌晨看到一篇媒体报道里有一种通俗工学上的类比挺有意思,给大家截取一下:

“大模型本质上是向量程序的存储库。当给出提示词时,LLM会提取提示词对应的程序,并在当前输入上「执行」。也就是说,它们是通过被动接触人类生成内容来存储和操作化数百万个有用的小程序的一种方式。

这种「记忆、提取、应用」的模式可以在适当的训练数据下,实现对任意任务的任意技能水平,但它无法适应新任务或即时掌握新技能。而要适应新任务,需要两样东西。

第一,需要知识:一组可重用的函数或程序供调用。LLM在这方面已经绰绰有余。

第二,需要在面对新任务时将这些函数重新组合成一个全新的程序的能力:一个能够建模当前任务的程序,也就是程序合成。

而LLM长期以来缺乏这一特性,o系列模型却带了新的突破。o3模型的核心创新在于,实现了token空间内自研语言程序搜索和执行。它在测试时会搜索可能的CoT空间,寻找描述解决任务所需的步骤,由评估模型引导搜索过程。这种方式可能与AlphaZero的MCTS某种程度上类似。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值