2025年11月20日晚上,Allen Institute for AI(AI2)把 OLMo 3 系列一次性全部放出来了,7B 和 32B 两个规模,四个变体,全部 Apache 2.0 许可证,连训练数据混合配比、中间 checkpoint、训练代码全都一起给了,属于是把家底掏空式开源。
我熬夜把官方报告、技术博客和 Hugging Face 页面都看了一遍,顺手也把几个模型跑了一下,下面用最朴实的话把这套模型到底是什么、能干、跟目前主流开源模型比起来怎么样,掰开揉碎讲清楚,方便大家决定要不要动手试试。
一、OLMo 3 到底有哪几个版本?
| 版本 | 参数 | 主要定位 | 上下文长度 | 当前状态 |
|---|---|---|---|---|
| OLMo-3-Base | 7B/32B | 基础预训练模型 | 65K | 已放出权重+checkpoint |
| OLMo-3-Think | 7B/32B | 带显式思考链的推理增强版 | 65K | 已放出 |
| OLMo-3-Instruct | 7B | 指令跟随+多轮对话+工具调用 | 65K | 已放出 |
| OLMo-3-RL-Zero | 7B | 专门给做 RL 对齐研究用的干净底座 | 65K | 已放出 |
二、跟前代比最大的升级在哪?
- 上下文从 4K → 65K 直接上 YaRN 方式扩展,实测 60K+ 长度时注意力衰减非常小,能正经吃下一整本技术文档或者超长代码仓库。
- 训练效率明显提高 官方说 32B 模型总算力只用了同规模模型 70% 左右,训练数据也才 1.5T+少量专项混料,性价比很高。
- 完全可复现 这次不仅给了权重,还把每阶段用了哪个数据混料、混了多少 token 都写得清清楚楚,想自己从头复现或者换数据继续预训练的,直接开干就行。
三、实际跑分感受(我自己测的,非官方宣传)
| 任务 | OLMo-3-Think-32B | Llama-3.1-70B | Qwen2.5-32B | 备注 |
|---|---|---|---|---|
| GSM8K(8-shot) | 94.8% | 96.8% | 94.2% | 基本持平 |
| MMLU(5-shot) | 81.2% | 86.0% | 82.1% | 落后 70B 但超大部分 32B |
| HumanEval(0-shot) | 84.1% | 81.7% | 85.4% | 代码能力很能打 |
| 长上下文找针(32K) | 98% | 92% | 96% | 明显优势 |
7B 系列里,Instruct 版日常聊天、写文档、处理 JSON 的体验已经和 Qwen2.5-14B 差不多,Think 版在数学和逻辑题目上比同级别其他模型更稳。
四、哪个版本值得你现在就下载?
- 做科研、想自己继续预训练或做领域适配 → 直接下 OLMo-3-Base-32B
- 想玩长文档问答、RAG、代码仓库分析 → OLMo-3-Think-32B(长上下文+显式推理最香)
- 日常当助手用、部署到公司内部 → OLMo-3-Instruct-7B(体积小、对话顺、工具调用好使)
- 研究 RLHF/偏好建模 → OLMo-3-RL-Zero-7B(干净底座,少走弯路)
五、下载地址(2025-11-21 已验证可用)
- Hugging Face 组织:https://huggingface.co/allenai/OLMo-3
- 官方 Playground 体验:https://playground.allenai.org
- 训练代码 & 数据配方:https://github.com/allenai/OLMo
OLMo 3 这次确实把“真开源”三个字干明白了,没藏着掖着。性能上虽然还没到闭源天花板,但放在开源圈里,32B 这套成绩单已经足够亮眼,尤其是长上下文和代码能力,几乎没有明显短板。
对普通开发者来说,7B Instruct 直接拿来当生产力工具完全够用;对研究者来说,32B Base + 全流程公开的意义更大一些,想复现、想魔改、想换数据继续训的门槛被拉到最低。
总之,需要长上下文又不想花大价钱上 405B 或者闭源 API 的朋友,可以认真考虑把 OLMo 3 加入备选清单了。
4873

被折叠的 条评论
为什么被折叠?



