当家里的扫地机器人卡进沙发底,当虚拟主播的裙摆穿模卡在椅子上。这些看似日常的小意外,背后都指向一个困扰AI界多年的难题:可变形物体的物理建模。
近期, 哈尔滨工业大学与华为诺亚方舟实验室的联合研究团队针对此问题发布取得突破性进展,其发布的论文 《PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis》 , 提出了一种基于真实视频的物理规律学习框架 ,仿真效率较现有主流技术提升47倍, 且实现了移动端实时推理能力。

传统方法在布料、面团等可变形物体的建模任务中, 需依赖海量视频数据驱动的暴力训练范式 ,存在三大核心技术瓶颈。
- 数据采集成本高, 需专业光学设备和多轮控制变量实验,加重中小企业负担;
- 场景泛化性弱 ,布料折叠场景学到的特征难迁移到液体倾倒等场景,同材质不同类型也适配困难;
- 仿真效率低, 单次布料飘动轨迹计算需数分钟,无法满足机器人实时抓取、元宇宙交互等高速需求。
技术革新:物理感知合成的三步
针对传统方法的局限,PHYSWORLD通过逆向建模、虚拟生成与高效推理的三步技术闭环协同机制 ,实现从样本记忆向规律理解的转变 。

视频驱动的数字孪生构建(逆向物理参数估计)
采用物质点法(MPM)作为核心模拟器,法兼具拉格朗日法追踪粒子和欧拉法描述空间优势,精准刻画可变形物体的连续形变过程。
首先对输入的单段真实视频进行帧级特征提取,通过光流估计与三维重建技术获取物体表面的形变轨迹; 随后将 轨迹数据输入MPM模拟器,采用梯度下降法逆向优化物理参数 ,直至数字孪生体的形变响应与真实视频误差最小化。
物理约束下的批量演示合成(多样化样本生成)
基于已构建的数字孪生体,系统设计多维度的参数扰动策略以生成大规模虚拟演示样本。

在材质维度 ,依托视觉语言模型(VLM)从物理库为绳子、布料等不同可变形物体自动选最优本构模型(如布料用各向异性超弹性模型),实现材料物理特性精准模拟; 交互维度 支持快速提拉等复杂操作,通过抓取和推动原语在MPM模拟器实现,并全局到局部优化摩擦系数等物理属性保一致性; 数据生成纬度上,为22个场景各生成500个交互演示片段(共超1万高质量序列),解决真实交互视频数据稀缺问题,实验显示用其合成数据训练的GNN预测误差(CD: 0.0100)远低于真实数据训练(CD: 0.0530),证明该策略能提升模型性能与泛化能力。

轻量化GNN推理加速(形变预测模型设计)
为突破传统粒子级模拟器的计算效率瓶颈,论文提出了一种基于图卷积的轻量化GNN世界模型 ,以实现形变的快速预测。
该模型的核心并非处理所有粒子 ,而是首先通过最远点采样将构成数字孪生的数万个MPM粒子下采样至约100-150个控制粒子。 模型以这些控制粒子以及交互器(如抓手)的控制点作为节点,在一定连接半径内构建动态图。通过顶点/边编码器聚合邻域节点的物理属性、历史轨迹等信息,再经由消息传递网络进行迭代更新,最终由解码器直接输出下一时刻控制粒子的状态位移,无需像MPM那样进行耗时的逐粒子迭代求解。
在 NVIDIA GeForce RTX 4060 Ti GPU上,PhysWorld的GNN模型推理速度高达 799 FPS(约1.25毫秒/帧),而现有SOTA方法PhysTwin的推理速度仅为 17 FPS(约58.8毫秒/帧)。这相当于实现了47倍的推理加速,同时保持了与PhysTwin相当的预测精度。

上述三步形成完整的技术闭环:逆向建模确保数字孪生体的物理真实性,虚拟合成解决数据泛化性问题,轻量化推理满足实时应用需求。
实验验证深度解析:性能指标与对比分析
为全面验证PhysWorld的性能,研究团队设计了多维度的实验方案。实验在22个真实可变形物体交互场景上进行,这些场景的数据来源于一个开源数据集, 涵盖了与绳子、毛绒动物、布料、包裹等多种物体的交互,如快速提拉、拉伸、推动和双手挤压等。
- 定量评估: 采用3D空间(Chamfer Distance, Tracking Error)和2D空间(IoU, PSNR, SSIM, LPIPS)的多项指标进行量化评测。

- 定性对比: 通过与SOTA方法PhysTwin进行视觉效果对比,展示其在未来状态预测上的优势。

- 消融分析 :对框架的核心模块(如全局到局部优化、VMP-Gen、P³-Pert)进行消融实验,验证其有效性。

- Benchmark对比: 与PhysTwin、Spring-Gaus、GS-Dynamics三种SOTA方法在统一测试集上进行了性能对比,结果表明PhysWorld在保持竞争力的同时,推理速度领先了47倍。

Benchmark对比实验
AI 物理直觉时代:一场建模范式的革命
该论 文攻克了可变形物体建模的 核心难题,核心思路是利用物理模拟器作为强先验, 为AI模型注入“物理规律”,推动其从单纯依赖样本记忆的感知模式,转向基于物理原理的逻辑推理与泛化。
可变形物体建模是机器人、元宇宙、影视特效等领域的关键瓶颈。PHYSWORLD为这些领域提供了突破性的技术支撑。论文通过模型规划实例展示了其在机器人领域的应用潜力, 预示着未来有望催生更多“物理感知型”AI产品,如更精准的机器人操作系统和高真实感的交互式虚拟环境。

AMiner「AI问答」升级为「AI文库」啦
AMiner原「AI问答」升级为「AI文库」,已接入GLM-4.6满血版,能够自动阅读文库中的文献全文,选择自定义的知识库进行多轮AI学术问答啦!
「AI文库」+「学术空间」组合使用,给你的文献配备私人专业领域文献管理员和赛博导师!
一、「AI文库」怎么用?
在AMiner左侧导航栏,选择「AI文库」(原「AI问答」),在输入框中点击左侧选择文库(支持单选和多选,默认勾选AMiner库),输入框右侧可进行对话模型切换。

二、3大知识库怎么选?
📚 AMiner 知识库:拥有3.2亿篇全球论文、6800万学者,1.7亿件专利、10万余种期刊、覆盖40+学科;
💻 计算机库:覆盖近三年CCF顶会和arXiv的文献全文库;
🗄️ 自建专属领域知识库:在“学术空间”中自定义知识库,支持本地上传、AMiner搜索收藏、AMiner论文详情页收藏等方式,构筑你的专属学术知识库!

三、如何构建自己的「专属学术知识库」?
第一步:在AMiner「学术空间」→“我的知识库”中新建文件夹,给知识库自定义命名。

第二步:导入文献,文献添加方式见下:轻松打造你的专业领域专属学术知识库!

2万+

被折叠的 条评论
为什么被折叠?



