Cosmos-Reason1：物理常识觉醒！NVIDIA 56B模型让AI懂重力+时空法则

本文链接：https://blog.youkuaiyun.com/qq_19841021/article/details/146573117

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🤖 「别让AI成物理文盲！英伟达给机器装上『常识脑』」

大家好，我是蚝油菜花。这些AI犯的物理错误你是否见过——

今天要重塑AI三观的 Cosmos-Reason1 ，正在重写智能边界！英伟达这剂「物理强心针」：

已有工厂用它训练零事故机械臂，自动驾驶靠物理常识预判极端路况——你的AI，是时候补上「宇宙生存必修课」了！

🚀 快速阅读

Cosmos-Reason1是NVIDIA推出的具备物理常识推理能力的多模态大语言模型。

cosmos-reason1

Cosmos-Reason1 是 NVIDIA 推出的系列多模态大型语言模型，基于物理常识和具身推理理解物理世界。Cosmos-Reason1包括两个模型：Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。

模型基于视觉输入感知世界，经过长链思考后生成自然语言响应，涵盖解释性见解和具身决策（如下一步行动）。训练分为四个阶段：视觉预训练、通用监督微调、物理 AI 微调和强化学习。Cosmos-Reason1基于精心策划的数据和强化学习，在物理常识和具身推理基准测试中表现出色。

层次化本体论：定义物理常识的层次化本体论，涵盖空间、时间和基础物理三个主要类别，进一步细分为16个子类别。
二维本体论：为具身推理设计二维本体论，涵盖五种具身代理的四种关键推理能力。
多模态架构：基于解码器仅多模态架构，输入视频基于视觉编码器处理后，与文本标记嵌入对齐，输入到LLM中。
模型四个训练阶段：
- 视觉预训练：对视觉和文本模态进行对齐
- 通用监督微调（SFT）：提升模型在通用视觉语言任务中的表现
- 物理AI SFT：用专门的数据增强物理常识和具身推理能力
- 物理AI强化学习（RL）：基于规则化奖励进一步优化模型的推理能力
强化学习：设计基于多选题的规则化奖励机制，基于强化学习提升模型在物理常识和具身推理任务中的表现。

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 丰富的 AI 工具库 -> 每日更新 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦