AI2 最新开源大模型 OLMo 3 系列全解析，已上架 Hugging Face，可直接下载

原创于 2025-11-24 19:46:45 发布 · 474 阅读

CC 4.0 BY-SA版权

文章标签：

2025年11月20日晚上，Allen Institute for AI（AI2）把 OLMo 3 系列一次性全部放出来了，7B 和 32B 两个规模，四个变体，全部 Apache 2.0 许可证，连训练数据混合配比、中间 checkpoint、训练代码全都一起给了，属于是把家底掏空式开源。

我熬夜把官方报告、技术博客和 Hugging Face 页面都看了一遍，顺手也把几个模型跑了一下，下面用最朴实的话把这套模型到底是什么、能干、跟目前主流开源模型比起来怎么样，掰开揉碎讲清楚，方便大家决定要不要动手试试。

版本	参数	主要定位	上下文长度	当前状态
OLMo-3-Base	7B/32B	基础预训练模型	65K	已放出权重+checkpoint
OLMo-3-Think	7B/32B	带显式思考链的推理增强版	65K	已放出
OLMo-3-Instruct	7B	指令跟随+多轮对话+工具调用	65K	已放出
OLMo-3-RL-Zero	7B	专门给做 RL 对齐研究用的干净底座	65K	已放出

任务	OLMo-3-Think-32B	Llama-3.1-70B	Qwen2.5-32B	备注
GSM8K（8-shot）	94.8%	96.8%	94.2%	基本持平
MMLU（5-shot）	81.2%	86.0%	82.1%	落后 70B 但超大部分 32B
HumanEval（0-shot）	84.1%	81.7%	85.4%	代码能力很能打
长上下文找针（32K）	98%	92%	96%	明显优势

7B 系列里，Instruct 版日常聊天、写文档、处理 JSON 的体验已经和 Qwen2.5-14B 差不多，Think 版在数学和逻辑题目上比同级别其他模型更稳。

OLMo 3 这次确实把“真开源”三个字干明白了，没藏着掖着。性能上虽然还没到闭源天花板，但放在开源圈里，32B 这套成绩单已经足够亮眼，尤其是长上下文和代码能力，几乎没有明显短板。

对普通开发者来说，7B Instruct 直接拿来当生产力工具完全够用；对研究者来说，32B Base + 全流程公开的意义更大一些，想复现、想魔改、想换数据继续训的门槛被拉到最低。