PhysTwin：基于视频的可变形体物理信息重建与模拟

原创于 2025-12-18 00:15:00 发布 · 1k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#音视频 #人工智能 #计算机视觉 #深度学习 #机器学习

计算机视觉同时被 3 个专栏收录

727 篇文章

订阅专栏

机器学习

689 篇文章

订阅专栏

人工智能

483 篇文章

订阅专栏

25年3月来自哥伦比亚大学和UIUC的论文“PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos”。

创建现实世界物体的物理数字孪生体在机器人、内容创作和扩展现实（XR）领域具有巨大的潜力。本文提出一种名为 PhysTwin 的框架，它利用动态物体交互的稀疏视频，生成照片级真实且物理上逼真的实时交互式虚拟模型。该方法主要包含两个关键组件：（1）基于物理信息的表示方法，该方法结合弹簧-质量模型（用于逼真的物理模拟）、生成形状模型（用于几何建模）和高斯溅射（用于渲染）；（2）一种多阶段、基于优化的逆向建模框架，该框架能够从视频中重建完整的几何形状、推断密集的物理属性并复现逼真的外观。其方法将逆向物理框架与视觉感知线索相结合，即使在视角不完整、被遮挡或受限的情况下，也能实现高保真度的重建。 PhysTwin支持对各种可变形体进行建模，包括绳索、毛绒玩具、布料和快递包裹。实验表明，在重建、渲染、未来预测和新型交互仿真方面，PhysTwin的性能优于其他同类方法。

构建交互式数字孪生对于建模世界和模拟未来状态至关重要，其应用领域涵盖虚拟现实、增强现实和机器人操控。一个物理上逼真的数字孪生（PhysTwin）应能精确捕捉物体的几何形状、外观和物理属性，从而实现与现实世界观测结果高度吻合的模拟。然而，如何从稀疏的观测数据中构建这样的表示仍然是一个巨大的挑战。

为可变形体创建数字孪生一直是视觉领域的一个难题。虽然动态 3D 方法（例如，动态 NeRF [2, 5, 8, 13, 14, 17, 27, 29–31, 39–41, 43, 55, 56, 58, 61]、动态 3D 高斯函数 [10, 20, 24, 33, 34, 59, 65, 66, 68]）能够从视频中捕捉到观察的运动、外观和几何形状，但它们忽略底层物理特性，因此不适合模拟未见交互的结果。尽管近期基于神经网络的模型[4, 11, 28, 32, 36, 42, 49, 51, 52, 60, 64, 69]能够从视频中学习直观的物理模型，但它们需要大量数据，且仅限于特定物体或运动；而物理驱动的方法[9, 12, 27, 44, 63, 71, 72]通常依赖预扫描形状或密集观测来缓解不适定性。此外，它需要密集的视点覆盖，且仅支持有限的运动类型，因此不适用于通用动力学建模。

动态场景重建。动态场景重建旨在从深度扫描[6, 26]、RGBD视频[38]或单目或多视角视频[1, 5, 24, 31, 34, 39, 40, 43, 56, 58, 61, 67, 68]等输入中恢复动态场景的底层表示。动态场景建模的最新进展包括采用新场景表示方法，例如神经辐射场（NeRF）[2, 5, 8, 13, 14, 16, 17, 27, 29, 30, 31, 39–41, 43, 55, 56, 58, 61] 和三维高斯溅射[10, 20, 24, 33, 34, 59, 65, 66, 68]。D-NeRF [43] 通过优化可变形场，扩展经典 NeRF 在动态场景上的应用。类似地，可变形三维高斯溅射（Deformable 3D-GS）[66] 优化每个高斯核的变形场。动态三维高斯溅射（Dynamic 3D-GS）[34] 则针对每一帧优化高斯核的运动，以捕捉场景动态。 4D-GS [59] 使用 4D 神经体素调制 3D 高斯函数，实现动态多视图合成。尽管这些方法在动态多视图合成方面取得高保真度的结果，但它们主要侧重于重建场景外观和几何形状，而忽略捕捉真实世界的动态特性，这限制它们支持基于动作的未来预测和交互式模拟的能力。

基于物理的可变形体模拟。另一项工作是将物理模拟器应用于重建过程中，以进行物理参数的系统识别。早期的方法依赖于预扫描的静态物体，并且需要干净的点云观测数据 [9, 15, 19, 21, 35, 44, 47, 57]。大多数最新方法都基于SDF[45]、NeRF[3, 12, 27]或高斯溅射[22, 63, 71, 72]，以支持更灵活的物理数字孪生重建。一些研究[12, 22, 63]手动指定物理参数，导致模拟结果与真实视频观测结果不匹配。其他研究[3, 27, 45, 71, 72]尝试从视频中估计物理参数。然而，这些方法通常受限于合成数据、有限的运动或需要密集的视角才能精确重建静态几何，从而限制它们的实际应用。与本文研究最接近的是Spring-Gaus[72]，它也利用三维弹簧-质量模型从视频中学习。然而，他们的物理模型过于正则化，违反真实世界的物理规律，缺乏动量守恒和真实的重力。此外，Spring-Gaus模型需要密集的视点覆盖才能重建初始状态下的完整几何形状，这在许多实际场景中是不切实际的。其运动也仅限于桌面碰撞，缺乏动作输入，因此Spring-Gaus模型不适合作为下游应用的通用动力学模型。

基于学习的可变形体仿真。由于状态空间的高度复杂性和物理属性的可变性，对可变形体的动力学进行解析建模极具挑战性。最近的研究[4, 11, 36, 60, 64]选择使用基于神经网络的模拟器来模拟物体动力学。具体而言，基于图的网络能够有效地学习各种类型物体的动力学，例如橡皮泥[51, 52]、布料[32, 42]、流体[28, 49]和毛绒玩具[69]。 GS-Dynamics [69] 尝试利用动态高斯模型 [34] 的跟踪和外观先验信息，直接从真实视频中学习物体动力学，并且能够很好地泛化到未见过的动作。然而，这些学习模型需要大量的训练样本，并且通常仅限于运动范围有限的特定环境。

PhysTwin

本文旨在利用稀疏视点RGB-D视频序列构建交互式PhysTwin模型，捕捉物体的几何形状、非刚体动力学特性和外观，从而实现逼真的物理模拟和渲染。其采用基于弹簧-质量模型的可变形体动力学模型，实现高效的物理模拟，并能够处理各种常见物体，例如绳索、毛绒玩具、布料和快递包裹。

由于弹簧-质量模型简单高效，因此被广泛用于模拟可变形体。可变形体被表示为一组通过弹簧连接的质量节点，形成图结构 G = (V, E)，其中 V 是质量节点的集合，E 是弹簧的集合。每个质量节点 i 具有位置 x_i 和速度 v_i ，它们随时间根据牛顿动力学演化。弹簧基于预定义的拓扑结构在相邻节点之间构建，从而定义物体的弹性结构。

节点 i 上的力是由弹簧连接的相邻节点的共同作用力造成的，其中 k_ij 是弹簧刚度，l_ij 是静止长度，γ 是阻尼器阻尼系数。外力 F^ext_i 考虑重力、碰撞和用户交互等因素。弹簧力使系统恢复到静止状态，而阻尼器阻尼则耗散能量，防止振荡。对于碰撞，当两个质点非常接近时，采用基于脉冲的碰撞处理方法，包括物体与碰撞器之间的碰撞以及物体两个质点之间的碰撞。

弹簧-质量模型通过对速度和位置应用显式欧拉积分，利用动态模型 X_t+1 = f_α,G_0 (X_t, a_t) 更新系统状态。更正式地说，对于所有 i，v^t+1_i = δ (v^t_i +∆t F_i/m_i)，x^t+1_i = x^t_i+∆tv^t+1_i，其中 X_t 表示 t 时刻的系统状态，δ 表示阻力阻尼。在该公式中，α 表示弹簧-质量模型的所有物理参数，包括弹簧刚度、碰撞参数和阻尼。它还包含与控制交互相关的参数。G_0 表示弹簧-质量系统的“规范”几何形状和拓扑结构，a_t 表示 t 时刻的动作。

将 PhysTwin 的构建建模为一个优化问题。然后，提出两阶段策略：第一阶段针对物理相关的优化，第二阶段针对外观相关的优化。该框架利用构建的 PhysTwin 具备实时仿真的能力。

问题描述

给定一个可变形体在交互作用下的三个RGB-D视频，目标是构建一个PhysTwin模型，该模型能够捕捉物体随时间变化的几何形状、外观和物理参数。在每个时间帧t，将第i个摄像头的RGB-D观测值记为O_t,i，其中O = (I, D)表示RGB图像I和深度图D。

优化目标是最小化预测观测值Oˆ_t,i与实际观测值O_t,i之间的差异。预测观测值是通过函数g_θ将预测状态Xˆ_t投影并渲染到图像上得到的，其中θ编码由高斯溅射表示的物体外观。3D状态Xˆ_t随时间演化，遵循弹簧-质量模型，该模型捕捉可变形体的动力学特性，并使用显式欧拉积分法更新状态。这样就可以定义一个优化问题的代价函数，其中α、G_0、θ 分别表示物理、几何、拓扑和外观参数；代价函数量化预测观测值 Oˆ_t,i 与实际观测值 O_t,i 之间的差异。该代价函数分解为三个分量：C = C_geometry + C_motion + C_render，分别表示推断的系统状态与来自 3D 几何、3D 运动跟踪和 2D 颜色的相应观测值之间差异。函数 g_θ 是观测模型，描述从预测状态到图像平面的投影，以及来自第 i 个相机的图像空间感知观测。f_α,G 模拟物体状态在弹簧-质量模型下的动态演化。

PhysTwin框架

鉴于定义的整体优化问题的复杂性，PhysTwin框架将其分解为两个阶段。第一阶段侧重于优化几何和物理参数，而第二阶段则致力于优化外观相关参数。如图所示：
请添加图片描述

物理和几何优化

如前所述的优化代价，目标是最小化预测观测值Oˆ_t,i与实际观测值O_t,i之间的差异。首先，将每个时间帧t的深度观测值D_t转换为观测的部分3D点云X_t。在第一阶段，考虑优化目标，其中C_geometry 函数量化部分观测点云 X_t 与推断状态 Xˆ_t 之间的单向chamfer距离，而 C_motion 函数量化预测点 xˆ^t_i 与其对应的观测跟踪点 x^t_i 之间的跟踪误差。观测跟踪点使用视觉基础模型 CoTracker3 [23] 获得，然后通过深度图反投影将其提升到 3D 空间。

第一阶段优化面临三个主要挑战：（1）来自稀疏视点的部分观测；（2）离散拓扑和物理参数的联合优化；以及（3）动态模型的不连续性，以及较长的时间跨度和稠密的参数空间，使得连续优化变得困难。为了应对这些挑战，将几何参数和其他参数分开处理。具体而言，首先利用生成式形状初始化来获取完整的几何形状，然后采用两阶段稀疏到稠密优化方法来优化剩余参数。

生成式形状先验。由于观测数据不完整，恢复完整的几何形状极具挑战性。利用图像-到-三维生成模型 TRELLIS [62] 的形状先验，基于对掩码目标的单次 RGB 观测生成完整的网格。为了提高网格质量，首先使用超分辨率模型 [48] 对 TRELLIS 的输入进行增强，该模型对分割后的前景（通过 Grounded-SAM2 [46] 获得）进行放大。虽然生成的网格与相机观测结果吻合良好，但仍然可以观察到尺度、姿态和形变方面的不一致。

为了解决这个问题，设计一个配准模块，该模块使用二维匹配进行尺度估计，并进行刚性配准和非刚性形变。首先，采用由粗到精的策略，利用 SuperGlue [50] 匹配的二维对应关系估计初始旋转，然后使用PnP [25] 算法进行细化。通过优化相机坐标系中匹配点之间的距离来解决尺度和平移歧义。应用这些变换后，物体在姿态上进行对齐，部分形变通过尽可能刚性配准 [53] 来处理。最后，光线投射对齐确保观测点与变形后的网格匹配且无遮挡。

这些步骤生成与第一帧观测值对齐的形状先验，该先验作为逆物理和外观优化阶段的关键初始化。

稀疏-到-稠密优化。弹簧-质量模型由拓扑结构（即弹簧的连接性）和定义在弹簧上的物理参数组成。还引入控制参数，用于连接控制点和目标点之间的弹簧，这些参数由半径和最大邻居数定义。类似地，对于拓扑优化，采用启发式方法连接最近邻点，这些点也由连接半径和最大邻居数参数化，从而控制弹簧的密度。为了从视频数据中提取控制点，用Grounded-SAM2 [46] 分割手部掩码区域，并使用CoTracker3 [23] 跟踪手部运动。将这些点提升到3D空间后，应用最远点采样来获得最终的控制点集。

上述所有组件构成旨在优化的参数空间。两大挑战是：(1) 部分参数不可微（例如半径和最大邻居数）；(2) 为了表示各种目标，对稠密弹簧刚度进行建模，导致参数空间包含数万个弹簧。

为了应对这些挑战，引入一种分层稀疏-到-稠密的优化策略。首先，采用零阶、基于采样的优化方法来估计参数，这自然地规避不可微问题。然而，当参数空间过大时，零阶优化会变得效率低下。因此，在第一阶段，假设刚度均匀，从而使拓扑结构和其他物理参数获得良好的初始化。在第二阶段，利用自主开发的可微分弹簧-质量模拟器，通过一阶梯度下降进一步优化参数。该阶段同时优化稠密弹簧刚度和碰撞参数。

除了优化策略之外，还利用视觉基础模型中的跟踪先验信息引入额外的监督。将二维跟踪预测提升到三维空间，从而获得三维点的伪真实跟踪数据，这构成了成本函数的关键组成部分。

通过将优化策略与利用额外跟踪先验信息的成本函数相结合，PhysTwin 框架能够高效地对视频中各种可交互目标动态特性进行建模。

外观优化

在第二阶段外观优化中，为了对物体外观进行建模，构建一组由参数 θ 定义的静态 3D 高斯核。每个高斯核由一个 3D 中心位置 μ、一个由四元数 q 表示的旋转矩阵、一个由 3D 向量 s 表示的缩放矩阵、一个不透明度值 α 和颜色系数 c 定义。定义一个优化 θ的目标函数，其中 Xˆ_t 表示 t 时刻的优化系统状态，i 表示相机索引，I_i,t 和 Iˆ_i,t 分别表示 t 时刻相机视图 i 的真实图像和渲染图像。C_render 使用渲染图像和真实图像之间的 D-SSIM 项计算 L1 损失。为简单起见，设置 t = 0 以仅优化第一帧的外观。将高斯形状限制为各向同性，以防止变形过程中出现尖峰伪影。

为了确保形变下渲染效果逼真，需要根据状态 Xˆ_t 和 Xˆ_t+1 之间的转换，在每个时间步 t 动态调整每个高斯函数。为此，采用一种基于线性混合蒙皮 (LBS) 的高斯更新算法 [20, 54, 69]，该算法利用相邻质量节点的运动来插值三维高斯函数的运动。

PhysTwin 的功能

构建的 PhysTwin 支持对各种运动状态下的可变形物体进行实时仿真，同时保持逼真的外观。这种实时、照片级真实感的仿真实现对物体动力学的交互式探索。

通过引入控制点并利用弹簧将其动态连接到物体上的控制点，系统可以模拟各种运动模式和交互。这些功能使 PhysTwin 成为实时交互式仿真和基于模型的机器人运动规划的强大表示方法。

实验设置

数据集。收集一个 RGBD 视频数据集，该数据集捕捉人与各种具有不同物理属性的可变形体（例如绳索、毛绒玩具、布料和快递包裹）的交互过程。用三台 RealSense-D455 RGBD 摄像机记录这些交互过程。每个视频时长为 1 至 10 秒，捕捉不同的交互动作，包括用一只或双手快速提起、伸展、推动和挤压物体。收集 22 个场景，涵盖各种物体类型、交互类型和手部姿势。对于每个场景，将 RGBD 视频按照 7:3 的比例分为训练集和测试集，其中仅使用训练集来构建 PhysTwin 模型。为每个视频手动标注 9 个真实跟踪点，并使用 [7] 中介绍的半自动工具评估跟踪性能。

任务。为了评估 PhysTwin 框架的有效性以及构建的 PhysTwin 质量，设计三个任务：（1）重建与重模拟；（2）未来预测；（3）泛化到未见动作。

对于重建与重模拟任务，目标是构建一个 PhysTwin，使其能够根据控制点位置所代表的动作，准确地重建和重模拟可变形体的运动。
对于未来预测任务，旨在评估 PhysTwin 在构建过程中能否很好地处理未见的未来帧。对于泛化到未见交互任务，目标是评估 PhysTwin 能否适应不同的交互。为了评估这一点，构建一个泛化数据集，该数据集包含对同一物体执行但运动不同的交互对，包括手部姿势和交互类型的差异。

基线。选择两个主要的研究方向作为基准，并对其进行进一步扩展，使其与设定的任务相匹配。

考虑的第一个基准是基于物理的仿真方法 Spring-Gaus [72]，用于识别可变形体的材料属性。他们的工作在其原始设置中展现强大的重建、重仿真和未来预测能力。然而，他们的框架不支持外部控制输入，因此为其添加额外的控制功能。

对于 Spring-Gaus，虽然它在建模物体碰撞视频方面表现出合理的性能，但其适用范围仅限于物体主要在重力作用下变形的相对简单的情况，这限制了其支持的物体类型范围。为了使 Spring-Gaus [72] 适应本文设置，通过引入对控制点的支持对其进行扩展。具体来说，添加额外的弹簧，将控制点与其在预定义距离内的相邻物体点连接起来，从而可以直接在数据集上进行优化。此外，为了确保与稀疏视图设置兼容，将形状先验作为其静态高斯构造的初始化。由于构建的高斯函数缺乏泛化到不同初始条件的能力，仅在重建与重模拟和未来预测这两项任务上评估他们的方法。

第二个基准是基于学习的仿真方法 GS-Dynamics [69]，它采用基于图神经网络 (GNN) 的神经动力学模型，直接从部分观测数据中学习系统动力学。在其原始设置中，需要使用 Dyn3DGS [34] 对视频进行预处理才能获得跟踪信息。为了进行更公平的比较，使用基于 CoTracker3 [23] 的 3D 提升跟踪器来增强模型，该跟踪器为 GS-Dynamics 使用的神经动力学模型的训练提供更高效、更精确的监督。

对于 GS-Dynamics，在所有三项任务上将方法与他们的方法进行比较。为了使基于图神经网络（GNN）的动力学模型能够生成逼真的渲染效果，采用高斯混合策略对其进行增强，从而提高其生成高质量图像的能力。

评估。为了更好地了解预测是否与观测结果相符，分别在 3D 和 2D 空间中评估预测结果。对于 3D 评估，使用单向chamfer距离（部分真实值与完整状态预测）和跟踪误差（基于手动标注的真实跟踪点）。对于 2D 评估，用 PSNR、SSIM 和 LPIPS [70] 来评估图像质量，并使用 IoU 来评估轮廓对齐情况。由于中心视点处物体可见性最佳，仅在中心视点进行 2D 评估，并将所有帧和场景的指标取平均值。特别地，对于 Spring-Gaus [72] 基线模型，由于物理建模不准确，其优化过程不稳定。因此，仅报告成功案例的上述指标。

任务。PhysTwin 仅基于每个数据点的训练集构建，其性能评估基于其在测试集中与原始视频的匹配程度。对于泛化任务，创建一个数据集，其中包含对同一物体执行的交互对。例如，基于单手提起树懒玩具的场景构建 PhysTwin，然后在双手伸展其腿部的不同场景中评估其性能。该数据集包含 11 个这样的交互对，由于每个交互对允许两种可能的迁移方向（即从一个交互到另一个交互，反之亦然），因此总共进行 22 次泛化实验。在此任务中，PhysTwin 仍然仅使用源交互的训练集构建，但应用于目标交互的整个序列。