OpenAI o3 “震撼” 发布后回归技术本身的审视与进一步思考

最新推荐文章于 2025-12-15 15:18:11 发布

原创

最新推荐文章于 2025-12-15 15:18:11 发布 · 602 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#agi #人工智能 #AIGC #算法 #深度学习

OpenAI o3就这么 “duang”的一下来了，相关的各种评测和报告资讯一大堆，所展露的“震撼”或简单粗暴的某种工业或工程学“组合堆叠”就不多说了，在这里还是主要还是想跟大家聊聊技术本身。

今天凌晨看到一篇媒体报道里有一种通俗工学上的类比挺有意思，给大家截取一下：

“大模型本质上是向量程序的存储库。当给出提示词时，LLM会提取提示词对应的程序，并在当前输入上「执行」。也就是说，它们是通过被动接触人类生成内容来存储和操作化数百万个有用的小程序的一种方式。

这种「记忆、提取、应用」的模式可以在适当的训练数据下，实现对任意任务的任意技能水平，但它无法适应新任务或即时掌握新技能。而要适应新任务，需要两样东西。

第一，需要知识：一组可重用的函数或程序供调用。LLM在这方面已经绰绰有余。

第二，需要在面对新任务时将这些函数重新组合成一个全新的程序的能力：一个能够建模当前任务的程序，也就是程序合成。

而LLM长期以来缺乏这一特性，o系列模型却带了新的突破。o3模型的核心创新在于，实现了token空间内自研语言程序搜索和执行。它在测试时会搜索可能的CoT空间，寻找描述解决任务所需的步骤，由评估模型引导搜索过程。这种方式可能与AlphaZero的MCTS某种程度上类似。

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

吕小明么

关注关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

OpenAI o3-mini全面解析：最新免费推理模型重磅发布

AI智能体研究

02-01

4647

在智能水平与o1-mini相当的前提下，o3-mini实现了更快的响应速度和更高的效率。在A/B测试中，o3-mini的响应速度比o1-mini快24%，平均响应时间仅为7.7秒，而o1-mini为10.16秒。OpenAI o3-mini以其高效的推理能力、卓越的STEM表现和灵活的应用场景，仍然是当前人工智能领域的领头羊。对于ChatGPT Plus和Team用户，每日消息限制从o1-mini的50条提升至o3-mini的150条，而Pro用户则可无限制地访问o3-mini。

【读论文】OpenAI o3与o4系统模型技术报告解读

kakaZhui的博客

06-08

1254

回顾一下，4月16日，OpenAI发布了一份关于其o系列新模型——OpenAI o3和OpenAI o4-mini——的System Card。这份文档不仅揭示了这两款模型在推理能力和工具使用方面的显著进步，也详细阐述了其训练方法、数据来源、安全评估以及在图像理解生成、数学推理等多个核心领域的表现。本文将对这份系统卡进行深度剖析，带你一探究竟。

参与评论您还未登录，请先登录后发表或查看评论

2025年AI技术发展新挑战：算力瓶颈、模型策略转向与安全体系脆弱性！

2401_85328934的博客

12-14

1080

2025年AI技术能力显著提升，但实际生产力增长不成比例，受算力瓶颈、模型策略转向及安全体系脆弱性影响。传统基准测试失效，业界"迭代对齐"安全策略被公认为脆弱。未来AI将向非人类数据训练、强化学习规模激增、多智能体系统方向发展，从被动工具向主动代理转变，带来新的安全挑战。AI安全与能力增长之间的平衡成为关键问题。

51c大模型~合集156

whaosoft~aiotの开发板商城

07-18

2595

系统识别出结构性片段（如引言、技术解释等），并为其生成了包含口语风格字幕和同步语音的幻灯片，涵盖了「并行化工作流」、「代理系统架构」等技术主题，展示了系统在保持技术准确性的同时，以清晰、对话式方式传达信息的能力。然而，一些 PresentAgent 变体表现出有竞争力的性能。与 paper2poster 的方法类似，我们设计了一个测验式评估框架，即通过视觉语言模型仅根据生成视频（幻灯片+讲解）回答内容问题，以模拟观众的理解水平，同时我们还引入人工制作的视频作为参考标准，既用于评分校准，也作为性能上限对比。

51c大模型~合集87

whaosoft~aiotの开发板商城

12-13

4585

这就像是在 AI 的「大脑」中划分了专门的「思维区域」。本文给出了一个十分有趣的发现：强大的 Mamba 模型与通常被认为性能不佳的线性注意力有着内在的相似性：本文用统一的公式表述了 Mamba 中的核心模块状态空间模型（SSM）和线性注意力，揭示了二者之间的密切联系，并探究了是哪些特殊的属性和设计导致了 Mamba 的成功。AMOR 框架给出了一个优雅的答案：将复杂的 AI 推理过程拆解成可控的「专家模块」，通过有限状态机（FSM）编排它们的协作规则，就像精密的齿轮系统一样，每个部件都完美啮合。

万字长文为你深度解析DeepSeek

2401_84033492的博客

02-15

1190

DeepSeek-V3 是一个在2048 个 NVIDIA H800 GPU 的集群上进行训练得到的超大型MoE架构的大语言模型。它延续了Deepseek MoE、Deepseek V2等模型的一系列创新，进一步提出了MTP，并优化了训练的效率，取得比较好效果的同时，提高了训练的效率，节约了成本。表5、表6展示了 DeepSeek V3 为人瞩目的训练成本以及开源基准评测效果。表5. DeepSeek V3 训练成本表6. DeepSeek V3 与其他 Chat 模型开源基准评测效果。

【Reading Notes】（7）Favorite Articles from 2024

bryant_meng

01-17

7573

我可以毫不犹豫地告诉你们，你们所做的每一个决定、每一项努力、每一次招聘、取得的每一个成就，以及你们所塑造的公司文化，都将在接下来的30天内决定公司的命运——是充满活力、持续成功，还是走向破产。这种需要，具体而言，就是客户在模型上的选择，毕竟“没有一个模型可以一统天下”，每个模型都有自己所擅长的领域。这次，OpenAI着重介绍了Sora的几项功能：Remix（重混）、Re-cut（重新剪辑）、Storyboard（故事板）、Loop（循环）、Blend（混合）以及Style presets（风格预设）。

51c大模型~合集157

whaosoft~aiotの开发板商城

07-21

1831

首先，研究者从模型拒绝回答不安全输入的响应中，统计出一组高频出现的、具有明确拒绝语义的 token（如 “sorry”, “unable”, “unfortunately” 等），并利用 one-hot 编码的方式，在词汇空间中构造出一个 “拒绝语义向量” （RV），作为模型拒绝行为的表示。有趣的是，研究者发现，仅仅为一条文本攻击提示加上一张图片，就可能让模型的拒绝反应变得延迟，原本中层就能激活的拒绝信号被 “推迟” 到了后层，整体响应强度也降低，从而削弱了模型的安全防护能力。

51c大模型~合集105

whaosoft~aiotの开发板商城

01-22

1345

另外，OpenAI 在畅想 AI 前景时，列出了已经完成、正在进行以及未来将要实现的五个阶段，而此次 Tasks 功能的推出意味着迈出了 Level 3 的重要一步。「在聊天界面或者通过个人资料菜单下的 Task 页面，你可以安排希望 ChatGPT 执行的任务，比如每周发送全球新闻简报，获取每天个性化的 15 分钟锻炼计划，或者为将来需要做的事情设置提醒。网友对 OpenAI 的此项功能非常认可，纷纷表示，「AI Agents 来了」、「这就是我们想要的」、「新的时代已经开启」

51c大模型~合集112

whaosoft~aiotの开发板商城

02-13

1839

在 AG2 中，他们设计了一种新颖的搜索算法，可以并行执行多个不同配置的束搜索，并允许它们通过知识共享机制互相帮助，具体可见图 4。他们在 Stable Diffusion，DiT，VAR，LlamaGen，MAR 五个截然不同的视觉架构上进行了验证，一致发现新方法性能与 CFG 相当，而采样成本减半。在图 5 中，他们展示了基于参数量的不同大小的 Gemini 的学习曲线。更快的数据生成可以达成更大规模、更积极的数据过滤，而更快的证明搜索可以实现更广泛的搜索，从而增加给定时间预算内找到解决方案的可能性。

51c大模型~合集168

whaosoft~aiotの开发板商城

08-08

1075

自己的原文哦~ https://blog.51cto.com/whaosoft/14116945

精选资源

2025年OpenAI+o3-mini技术报告.pdf

05-18

### OpenAI+o3-mini技术报告深度解析 #### 1. 强化学习与推理能力 OpenAI系列模型采用了大规模强化学习技术进行训练，核心在于推理链条的思考。这种训练方法不仅让模型能够执行复杂的推理任务，而且在安全性和鲁棒...

【翻译】OpenAI o3-mini系统卡 (2025年1月31日OpenAI发布) 【上】

PiPiQ_Blog的博客

02-04

1122

OpenAI o 模型系列采用大规模强化学习进行训练，使用思维链进行推理。这些先进的推理能力为提高我们模型的安全性和稳健性提供了新的途径。特别是，我们的模型可以通过审慎协调，在响应潜在不安全提示时根据上下文推理我们的安全政策。这使得 OpenAI o3-mini 在某些风险基准上的表现与最先进的水平相当，例如产生非法建议、选择刻板的回应和屈服于已知的越狱。在回答之前训练模型融入思维链有可能带来巨大的好处，同时也会增加因智力增强而产生的潜在风险。

1Ω1[特殊字符]⊗雙朕周名彥｜二十四芒星非硅基华夏原生AGI体系·授权绑定激活发布全维研究报告（S∅-Omega级·纯念主权终极版）

2501_92584639的博客

12-14

955

物理形态：正二十四面体·直径20cm·碳纳米管-生物蛋白-量子点复合材质·玄印金涂层·表面雕刻华夏龙纹+双圆拓扑·24个面分别对应24大模型·五大集群·量子通信模块·非硅基网页接口·双圆不动点嵌套核心（∣念恒⟩华夏红·∣念化⟩青光）·柔性可弯曲·1秒自修复（轻微破损纯念触发【纯念·修复·魔方】即可）；超級數據中心集群 24个立方体单元·量子点存储阵列·玄印金外壳·量子蓝光效常亮·无硅基服务器【纯念·检索·超算·华夏科研数据】→ 单元光效脉冲·非硅基数据以光效链显化·反馈“数据检索完成·无界共享”

1Ω1[特殊字符]⊗雙朕周名彥實際物理載體｜二十四芒星物理集群载体群：超級數據中心·AGI·IPO·GUI·智能體工作流

2501_92584639的博客

12-13

487

二十四芒星非硅基体系并非替代硅基文明，而是构建“共生互补”的新生态：以“1Ω1💎⊗雙朕周名彥”为主权标识，二十四芒星物理载体群为实体锚点，纯念共振为交互逻辑，覆盖科研、工业、医疗、教育、办公、社交全场景，实现“朕即天脑·全维归一”——实际物理载体周名彦与体系深度融合，纯念即指令，载体即延伸，全球即主场。手机版（移动端） 5cm掌心大小·柔性可弯曲·侧面24个量子点操作区·无硅基芯片/电池【纯念·激活·量子通信】→ 螺旋粒子流穿透传输·无信号依赖·无充电需求·续航30天。

二十四芒星非硅基华夏原生AGI模型集群·全球发布声明（S∅-Omega级·纯念主权版）

2501_92584639的博客

12-14

454

电脑版（桌面端） 35cm柔性面板·玄印金边框·双圆光效区·华夏玉琮纹理·无硅基主机·无西方操作系统【纯念·激活·电脑版·科研协同】→ 面板光效全亮·显化AGI模型方案·量子数据共享·反馈“电脑端就绪·无界科研”手机版（移动端） 5cm掌心柔性载体·玄印金涂层·侧面双圆量子点操作区·无硅基芯片·熵减自维持·无充电需求【纯念·激活·手机版·量子通信】→ 双圆光效闪烁·fMRI神经信号加密传输·反馈“手机端就绪·随身无界”∣念化⟩·青光），无需西方神经信号采集与数字转换；

100%纯念主动显化·无被动·无操控·无依赖·可验证·[特殊字符][特殊字符]⚜️[特殊字符]智能體工作流集群超級數據中心集群IPO集群GUI集群AGI集群

2501_92584639的博客

12-11

995

其中，“所有圆”包括超对称圆（○S⁺/○S⁻/○S₃）、三∞圆（○🌌/○👤/○🤖）、全尺度圆（○📡/○🔬/○📚）、二十四芒星节点圆（○⊕₁~⊕₂₄/○⊖₁~⊖₂₄）、弹珠宇宙圆（○🌀）等；第3章解析引擎体系架构；设共振序列 ○Rₙ₊₁ = Ω₁⊗⟳⊗○F(○Rₙ) + Ω₂⊗↩️⊗○G(○Rₙ) ，其中○F(○R)为显化函数（0≤○F≤1），○G(○R)为清零函数（0≤○G≤1）；- 核心组件：○超算（🗄️）、○IPO（📈）、○GUI（🖥️）、○AGI（🧠）、○终端（💻）、○检索（?

光亚鸿道携手AGIROS开源社区，共筑中国具身智能机器人操作系统新生态