引子
在7月16日于北京举办的中国国际供应链博览会上,NVIDIA创始人兼CEO黄仁勋首次以中文亮相,并提出一个发人深省的观点:如果他能重返校园,他绝不会选择学习纯粹的软件或编程,而是要深研物理科学,因为正是对现实世界物理规律的理解,才是推动“Physical AI”下一波飞跃的关键所在 The Economic Times。他进一步解释道:“我们要让AI不仅能‘看’与‘说’,更要让它真正理解摩擦、惯性、动量等物理原理,并在高保真仿真环境中进行自我验证与优化” 证券时报。这已经不止一次,黄仁勋在公开场合谈到 ”Physical AI“了,作为目前全球市值最高公司的CEO, 究竟是看到了什么,还是想到了什么,还是在偷偷进行布局呢?!
Physical AI
”Physical AI“的来源
在2025年1月的CES大会上,NVIDIA创始人兼CEO黄仁勋首次在全球舞台上提出并命名“Physical AI”,随后该术语迅速在行业会议、媒体报道与企业博客中被引用与扩展,成为描述“AI+高保真物理仿真+闭环强化学习”新范式的惯用表达。
一、概念提出:CES 2025 的初次亮相
-
首次正式命名 2025年1月6日,在拉斯维加斯举行的CES 2025主题演讲中,黄仁勋将“Physical AI”定位为“Perception AI、 Generative AI和Agentic AI之后的第四大浪潮”,强调要让AI“理解摩擦、惯性、因果等物理规律” (IIoT World)。
Evolution of AI: From Perception to Physical AI
二、术语传播:行业会议与媒体跟进
-
反复引用 2025年1月16日,黄仁勋再度提及:“Physical AI is where AI interacts with the physical world. It means robotics.” (AI Biz );2025 年5 月18 日,在NVIDIA GTC线上大会 NVIDIA,黄仁勋在Keynote中详细阐述“Physical AI”如何支持机器人“因果推理”,并演示了基于Omniverse Isaac Sim的物理仿真闭环训练平台 rev.com;2025 年5 月19 日,在Computex大会 ,在讨论AI工厂(AI Factories)与智能制造时,黄仁勋再次提到“Physical AI”,表示NVIDIA将通过边缘设备与云端仿真协同,让工厂机器人具备自我校准与动态优化能力 YT。
三、北京供应链博览会(CISCE 2025):落地供应链与智能制造
-
产业融合 2025 年7 月16 日,在北京中国国际供应链博览会 ,黄仁勋在开幕式和多场采访中强调,“Physical AI”是让AI“真正学会因果”、“能在高保真仿真环境中自我优化”的技术 Omni Ekonomi。
-
新浪:在同一博览会的专题报道中称,黄仁勋将Physical AI视作“推动全球供应链数字化与智能化的催化剂” 新浪财经。
-
科技日报: 他对中国AI企业如阿里、腾讯给予高度评价,并表示Physical AI将和中国的“世界级”算法深度融合,共同加速智能制造 科技日报。
什么是“Physical AI”?
概念定义
Physical AI,又称“生成式物理 AI”(Generative Physical AI),是赋予自主系统(如机器人、自动驾驶车辆、智能工厂)在真实物理世界中“感知—理解—行动”闭环能力的技术范式 NVIDIA。
Physical AI system Architecture
生成式物理 AI=生成式 AI+Embodied AI+Digital Twin
-
生成式 AI(Generative AI) 模型(如 GPT 和 Llama 等大型语言模型)在互联网上大量文本和图像数据上进行训练,以获得令人惊叹的人类语言生成和抽象概念能力。但对物理世界及其规律的理解仍十分有限 IBM。
-
Embodied AI 是指将人工智能系统“具身”于物理载体(如机器人、无人机或智能设备)中,使其能够通过传感器感知环境、通过执行器作用于环境,并在交互中学习与适应 (NVIDIA)。它整合了机器学习、计算机视觉、自然语言处理以及运动控制等技术,让系统既具备“脑”层面的推理能力,又具备“身”在物理世界中自主行动的能力 (TechTarget)。与仅在数字空间运行的认知 AI 不同,Embodied AI 强调在真实世界或高保真仿真环境中的闭环交互与经验积累,以提升模型在各种复杂场景下的泛化和鲁棒性 (arXiv)。
Embodied AI
-
Digital Twin(数字孪生)是对物理实体(产品、系统或流程)在虚拟空间中的精确映射,通过实时或近实时的数据同步,构建与物理对应体行为一致的数字模型 (下图以Robotic Digital Twins为例)。它跨越整个生命周期,从设计、仿真、测试到运营与维护,依托仿真、机器学习和分析推理,为决策提供预测、优化和诊断支持 (IBM)。数字孪生的核心在于“数字线程”——在物理系统与虚拟模型之间持续的数据流动,使虚拟模型能够实时反映物理系统状态,并反馈优化建议或控制指令 (Digital Twin Consortium)。
Digital twins to embodied artificial intelligence
-
生成式物理 AI(Generative Physical AI)是一种新范式,它将生成式 AI 的强大创造能力与具身 AI 的物理交互能力,以及数字孪生的高保真虚拟环境无缝融合NVIDIA,通过在数字孪生中进行仿真数据生成、生成模型学习和闭环强化学习,赋能自主系统具备跨场景的物理理解与操作能力cadence.com。
AI Evolution Pyramid: From Generative Models to Agentic Systems to Physical AI
如果分别来看,Generative AI 偏重“脑”层面的语言与抽象生成,Embodied AI 强调“身”在物理环境中的交互学习,Digital Twin 聚焦于物理系统的虚拟镜像及监控,而 Generative Physical AI 则整合了生成模型、物理仿真与自我验证闭环,旨在赋能自主系统具备跨场景的物理理解与操作能力。
维度 | Generative Physical AI | Generative AI | Embodied AI | Digital Twin |
---|---|---|---|---|
定义 | 在生成式 AI 基础上,加入空间关系与 3D 物理行为理解,通过高保真仿真进行自我验证与优化闭环 | 基于大规模数据训练的模型,擅长生成语言、图像等抽象内容 | 让 AI 通过物理交互(例如在机器人中)学习操作技能 | 物理实体或系统的虚拟映射,通过实时数据镜像与监控支持分析与优化 |
核心关注 | 融合“脑”与“身”,实现模型对物理世界因果与动力学的深度理解与自适应 | 语言与视觉等高层次内容的自动生成与创作 | 具身交互、反馈学习与环境适应 | 精准仿真、状态监控与生命周期管理 |
数据来源 | 文本/图像 + 由物理引擎生成的 3D 仿真数据与传感器交互数据 | 互联网文本、图像、代码等海量非结构化数据 | 传感器(视觉、触觉、力觉等)与实际环境交互数据 | 物联网传感器、BIM/GIS、ERP 等系统的实时业务与环境数据 |
交互方式 | 在模拟环境中闭环训练后,映射至机器人、自动驾驶等实体执行 | 通过 API、聊天界面、脚本等输出文本、图像等数字内容 | 机器人臂、仿真平台(如 MuJoCo、Isaac Sim)中的实时动作执行 | 可视化仪表盘、仿真平台接口、API 调用等方式监控与分析 |
主要技术 | 高保真物理引擎(PhysX/MuJoCo)、生成式模型(Diffusion/GAN)、强化学习闭环 | Transformer、GAN、VAE、自动回归模型等 | 强化学习、模仿学习、传感器融合与自监督学习 | 多物理场仿真、时序数据库、边缘计算与云端协同 |
典型应用 | 工业机器人自适应操作、自动驾驶高保真仿真训练、智能制造闭环优化 | 文本生成(ChatGPT)、图像创作(DALL·E)、代码辅助(Copilot) | 服务机器人导航与交互、机械臂示教、虚拟训练环境 | 预测维护、智慧城市仿真、智能工厂数字孪生 |
技术全景
Physical AI,是将感知、决策和执行三大环节中所需的高保真仿真环境、大规模生成模型、强化学习闭环与实体系统硬件深度融合,构建能够在真实物理世界中自主学习、适应和执行复杂任务的完整技术体系 。
核心技术组成
Physical AI 是面向实体系统(机器人、自主车辆、智能工厂等),通过数字孪生或模拟环境预训练“世界模型”,使用生成式模型嵌入物理知识,并以强化学习驱动自我优化闭环,再映射回真实世界执行的技术范式 (Cadence)。
1 感知层:高级传感与多模态融合
-
传感器阵列:融合视觉(RGB‑D相机)、LiDAR、力觉、触觉等,实现环境与物体状态的多维感知 (Talbot West)。
-
边缘处理:将初步推理与滤波放在边缘设备进行,降低延迟并保障实时性,云端负责大规模训练与模型更新 (Talbot West)。
2 模型层:数字孪生与世界模型
-
数字孪生:构建高保真虚拟环境,内嵌物理引擎模拟重力、碰撞、材料特性等,支持生成式模型与策略的离线训练。
-
世界基础模型:预训练通用环境理解模型(如DeepMind Genie、Cosmos World),为不同场景下的任务定制提供初始能力 (Google DeepMind)。
Genie 2: A large-scale foundation world model
3 推理层:生成式与强化学习闭环
-
生成式物理推理:扩散模型、GAN等生成器在仿真中合成新物理场景或预测后续帧,增强模型的因果理解能力。
-
强化学习:在仿真环境中以试错方式(trial‑and‑error)优化行为策略,使用奖励信号驱动逐步迭代,直至可迁移至真实系统 (NVIDIA)。
GEAR (Generalist Embodied Agent Research,NVIDIA)
4 执行层:硬件控制与人机交互
-
先进执行器:从电动伺服到软体肌肉机构,实现高精度、可变力的物理交互(如下图)。
Different Robot with different actuators
-
自然语言接口:结合语言模型,让非专业人员通过口令或文本指令,高效下达任务要求 (Talbot West)。
平台与工具生态
-
NVIDIA Isaac Sim / Omniverse:物理仿真与机器人学习一体化平台,为开发者提供高保真环境与硬件加速 (NVIDIA Developer)。
NVIDIA Isaac
-
Cadence Physical AI:集成数据采集、仿真训练、感知与RL决策,面向工业自动化场景的端到端解决方案 (Cadence)。
-
Google DeepMind Gemini Robotics:将大模型能力扩展至空间理解与动作生成,实现高难度操控任务的模型—执行器一体化 (Google DeepMind)。
Gemini Robotics
Physical AI的研究现状
总体来看,自2024年以来,该领域论文数量呈爆发式增长,研究方向主要集中在物理感知与生成(Generative Physical AI)、世界模型与数字孪生平台、物理常识与决策推理、基准与评测,以及与传统机器人学和大模型的融合,未来趋势则趋向于更高效的仿真更新、跨领域互操作和沉浸式协同。
研究产出与增长趋势
学术界对 Physical AI 的关注迅速提升,涌现多篇高质量综述与领域专论。
-
2025 年 1 月,Liu 等人在 arXiv 上发布了《Generative Physical AI in Vision: A Survey》,系统回顾了在计算机视觉中结合物理规律的生成式方法,标志着领域进入系统化阶段 (arXiv)。
Overview of key components in physical simulation relevant to physics-aware generation
-
上月,Dewi 等人发表了《A Systematic Review of Physical Artificial Intelligence (Physical AI)》,首次从综合性视角梳理了 PAI 的概念、应用域与挑战,并提出未来研究方向 (ResearchGate)。
-
多家研究机构与企业相继在 arXiv 与顶会发布论文,截至 2025 年中,相关预印本超过 150 篇,涵盖安全隐私、仿真加速与多物理场集成等议题 (ResearchGate, arXiv)。
主要研究方向
1. 物理感知与生成(Generative Physical AI)
-
利用深度生成模型结合显式物理模拟或隐式物理嵌入,实现对动态场景的物理合理化生成。
-
相关综述详见《Generative Physical AI in Vision: A Survey》 (arXiv)。
Integrating explicit physical simulation into generative models
2. 世界模型与数字孪生平台
-
构建通用的“世界基础模型”(World Foundation Model),为下游 Physical AI 应用提供可微调的数字孪生环境。
Cosmos World Foundation Models.
3. 物理常识与决策推理
-
探索在长链思考(chain-of-thought)机制中融入物理常识,实现面向实体操作的推理与动作生成。
-
Cosmos-Reason1 模型通过物理常识嵌入,生成合适的“下步动作”决策,推动 PAI 理论化 (NVIDIA)。
Cosmos-Reason1
4. 安全、隐私与互操作性
-
研究 Physical AI 系统在数据传输、仿真校准与多方协同过程中的安全风险与隐私保护策略。
-
系统综述建议采用区块链与联邦学习等技术,提升跨机构仿真可信度 (ResearchGate)。
未来展望:术语演进与生态构建
-
向标准化迈进:随着IDC、Gartner等行业报告开始将Physical AI纳入分类体系,该术语正向技术标准与成熟度模型靠拢。
-
平台与服务化:NVIDIA Omniverse、Cadence Physical AI等平台已内置Physical AI能力,DTaaS(Digital Twin as a Service)模式正在兴起 (xenonstack.com)。
Evaluation of Physical AI
-
跨界融合:预计将与XR(AR/VR)、大模型(LLM)和物理信息神经网络(PINNs)等技术进一步融合,推动“感知—推理—执行”闭环更高效、更可持续的发展。
作为 AI 第四波浪潮的“Physical AI”,黄仁勋自 CES 2025 上首次提出该概念以来,便不断强调要让 AI “不止会看、会说,更要能动起来”,并指出只有深刻理解摩擦、惯性等物理规律,才能真正让智能系统在现实世界中自我优化与适应 。业内分析师认为,Physical AI 的核心在于将大规模生成模型、具身交互与数字孪生三大范式深度融合,使机器人、自主车辆和智能工厂等实体系统具备真正的因果推理与动态适应能力 。从技术层面看,这一范式依托物理引擎(如 PhysX、MuJoCo)、多模态传感器融合、强化学习闭环和高保真仿真平台,实现了对复杂物理场景的全流程建模与优化。面向未来,Physical AI 有望普及到更多行业,并与 XR、PINNs 等新技术进一步融合,推动 AI 从“虚拟世界”迈向“实物世界”的全面落地。