文章链接:https://arxiv.org/abs/2411.11839
文章目录
Abstract
现实世界的真实数据获取变得日益重要。然而,通过远程操作捕获的大规模示范数据通常成本极高,难以高效地扩展数据规模。在模拟环境下采样任务数据是一种实现大规模数据收集的有前景方法,但现有的模拟器在纹理和物理的高保真建模方面存在不足。【也就是说,对现实进行数据采样成本太高了,可以做的是在模拟环境下进行数据的采样,但是现在模拟器太烂了,所以提出了新的模拟器】为了解决这些限制,我们提出了 RoboGSim,一种基于真实到模拟再到真实(real2sim2real)转换的机器人模拟器,集成了3D高斯点云(Gaussian Splatting)技术和物理引擎。
RoboGSim 主要由四个部分组成:高斯重建器(Gaussian Reconstructor)、数字孪生构建器(Digital Twins Builder)、场景编辑器(Scene Composer) 和 交互引擎(Interactive Engine)。它能够通过生成新的视角、对象、轨迹和场景来合成模拟数据。此外,RoboGSim 提供了一种在线、可重复和安全的评估机制,用于验证不同操作策略的表现。真实到模拟(real2sim)和模拟到真实(sim2real)的转换实验表明,在纹理和物理效果上具有高度一致性。此外,基于真实操作任务验证了合成数据的有效性。
我们希望 RoboGSim 能成为用于策略学习公平比较的闭环模拟器。【闭环仿真:模拟环境中的机器人或代理不仅执行动作,而且根据这些动作产生的反馈进行自我调整或优化】更多信息可访问我们的项目页面 https://robogsim.github.io/。

图1.RoboGSim是一个高效、低成本的互动平台,具有高保真渲染功能。它通过新场景、新物体和新视角实现演示合成,促进了策略学习的数据规模扩展。此外,它还可以执行闭环仿真,提供安全、公平和真实的评估,适用于不同的策略模型。
1. Introduction
收集大规模操作数据对高效策略学习至关重要。一些方法提出通过远程操作捕获示范数据及其对应的动作【11, 36, 38】。虽然这类方法相对提高了数据收集效率,但随着数据规模的增加,成本也随之显著增加。为了解决这一问题,一些研究【14, 33】尝试在模拟环境中生成合成数据,并利用这些数据学习操作策略。然而,这些模拟到真实(Sim2Real)的方法由于模拟环境与现实环境之间的域差距较大,往往导致学习的策略难以有效应用。
近年来,一些研究引入了真实到模拟再到真实(Real2Sim2Real, R2S2R)范式用于机器人学习【3, 20】。其核心思想是通过辐射场方法(如 NeRF【24】和 3D Gaussian Splatting, 3DGS【15】)实现真实感的重建,并将学习到的表示插入模拟器中。其中,典型方法 Robo-GS【20】提出了一个 Real2Sim 管线,并引入混合表示以生成支持高保真模拟的数字资产。然而,它缺乏在新场景、新视角和新物体上的示范数据合成,也未能验证这些数据在策略学习中的有效性。此外,由于潜在表示、模拟和现实空间之间的对齐问题,该方法无法实现不同策略的闭环评估。
在本文中,我们开发了一个名为 RoboGSim 的 Real2Sim2Real 模拟器,既支持高保真的示范数据合成,也支持物理一致的闭环评估。RoboGSim 包括四个主要模块:高斯重建器(Gaussian Reconstructor)、数字孪生构建器(Digital Twins Builder)、场景编辑器(Scene Composer) 和 交互引擎(Interactive Engine)。具体而言,给定多视角 RGB 图像序列和机械臂的 MDH【6】参数,高斯重建器基于 3DGS【42】重建场景和物体;接着,数字孪生构建器进行网格重建,并在 Isaac Sim 中创建数字孪生。在数字孪生构建器中,我们引入了布局对齐模块,用于对齐模拟空间、真实空间和 3DGS 表示之间的空间布局。之后,场景编辑器将场景、机械臂和物体结合在模拟环境中,并从新视角渲染图像。最后,在交互引擎中,RoboGSim 作为合成器(Synthesizer)和评估器(Evaluator),完成示范数据合成与闭环策略评估。
与现有的Real2Sim2Real 框架相比,RoboGSim 带来了多项优势。它是首个将示范数据合成与闭环评估统一起来的神经模拟器。RoboGSim 可以生成包含新场景、新视角和新物体的真实感操作示范数据,用于策略学习;同时,它也可以作为评估器,在真实感环境下以物理一致的方式执行模型评估。【该结构的作用:生成数据、模型评估】
总结来说,我们的核心贡献如下:
- 基于 3DGS 的真实感模拟器:我们开发了一个基于 3DGS 的模拟器,通过多视角 RGB 视频重建具有真实纹理的场景和物体。RoboGSim 针对弱纹理、低光照和反射表面等挑战性条件进行了优化。
- 数字孪生系统:我们在系统中引入布局对齐模块。通过布局对齐的 Isaac Sim,RoboGSim 实现了真实空间与模拟空间中物体与机械臂间物理交互的映射。
- 合成器与评估器:RoboGSim 能够合成用于策略学习的真实感操作示范数据(包括新场景、新视角和新物体),并作为评估器以物理一致的方式执行模型评估。
2. Related Work
2.1. Sim2Real in Robotics
Real2Sim2Real 方法的核心目标是解决模拟到真实(Sim2Real)转换中的域间差距【就是普通的差距】,这一问题一直是从模拟到现实应用的主要障碍【8, 26】。为了尽可能弥合 Sim2Real 差距,近年来出现了许多功能丰富的模拟器【7, 22, 27, 34, 37】,并提出了多种数据集和基准用于高效策略学习【12, 13, 16, 25】。
现有的 Sim2Real 方法大致可分为三类:域随机化(Domain Randomization)、域适配(Domain Adaptation)和干扰学习(Learning with Disturbances)【39】:
- 域随机化:通过引入随机性扩展机器人在模拟器中的操作范围,使得模拟环境能够迁移这些能力到现实场景【1, 10, 14, 33】。
- 域适配:旨在统一模拟环境与真实环境的特征空间,从而在统一特征空间内完成训练和迁移【2, 18, 40】。
- 干扰学习:在模拟环境中引入干扰,训练机器人策略,使其能够在充满噪声和不可预测性的现实环境中高效运行【5, 35】。
【总结:sim2real方法:加干扰、加随机、适配】
2.2. 3D Gaussian Splatting in Robotics
作为 3D 重建领域的重要进展,3D Gaussian Splatting(3DGS)【15】通过显式高斯点表示场景,并结合高效的光栅化实现高保真实时渲染,扩展了 NeRF【24】的能力。近年来,许多研究开始探索 3DGS 在模拟器及现实中的操作任务应用。
例如,ManiGaussian【21】引入了一个动态的高斯框架和高斯世界模型,分别通过隐式表示高斯点及其参数化来建模并预测未来的状态和动作。类似地,Gaussian Grasper【41】以 RGB-D 图像为输入,通过特征蒸馏和几何重建,将语义和几何特征嵌入 3DGS,从而实现语言指导下的抓取操作。
为了有效地将模拟中的知识迁移到现实并减少 Sim2Real 差距,基于 3DGS 的研究【17, 20, 28】近年来不断涌现。其中,与我们工作最相似的是 Robo-GS【20】和 SplatSim【28】:
- Robo-GS:通过绑定高斯点、网格和像素实现机械臂的高保真重建,主要专注于 Real2Sim 转换,但对 Sim2Real 阶段的讨论较少。
- SplatSim:重建了场景中的机械臂和物体,同时验证了该方法在 Sim2Real 任务中的可行性。然而,它缺乏对生成物体数字孪生资产的讨论,而数字孪生资产是实现精确操作的关键。

图2. RoboGSim流程概述: (1) 输入:多视角RGB图像序列和机械臂的MDH参数。 (2)高斯重建器:使用3DGS重建场景和物体,分割机械臂并构建MDH运动学驱动图结构,以精确建模机械臂的运动。 (3)数字双胞胎构建器:对场景和物体进行网格重建,然后在Isaac Sim中创建数字双胞胎,确保仿真中的高保真度。 (4)场景编排器:将机械臂和物体结合到仿真中,通过跟踪识别最佳测试视角,并从新的视角渲染图像。 (5) 互动引擎: (i)用于政策学习的合成图像,包含新场景/视角/物体。 (ii) 政策网络可以以闭环方式进行评估。 (iii)可以通过VR/Xbox设备收集具身数据。
3. Methods
3.1. Overall Architecture
如图 2 所示,RoboGSim 主要包括四个模块:高斯重建器(Gaussian Reconstructor)、数字孪生构建器(Digital Twins Builder)、场景合成器(Scene Composer) 和 交互引擎(Interactive Engine)。
- 高斯重建器(详见第 3.2 节):通过 3DGS 方法利用多视图图像和机械臂的 MDH 参数重建场景和物体。它对机械臂进行分割,并构建基于 MDH 的运动学驱动图结构,从而实现机械臂的精准运动建模。
- 数字孪生构建器(详见第 3.3 节):对场景和物体进行网格重建。通过布局对齐(layout alignment),连接资产数据流,为后续在交互引擎中的评估提供支持。
- 场景合成器(详见第 3.4 节):实现新物体、场景和视角的合成。
- 交互引擎(详见第 3.5 节):合成用于策略学习的全新视角/场景/物体图像,同时支持闭环方式评估策略网络。此外,还可利用真实世界中的 VR/Xbox 设备在模拟环境中采集操作数据。
3.2. Gaussian Reconstructor
我们采用 3D Gaussian Splatting(3DGS) 方法重建静态场景,并对机械臂关节的点云进行分割。随后,通过 MDH 动态模型控制与各关节对应的点云,从而实现机械臂的动态渲染。
3DGS 方法【15】使用多视图图像作为输入,进行高保真场景重建。该方法通过高斯点集表示场景,并采用可微分的光栅化渲染技术,实现实时渲染能力。
具体来说,对于由 N N N 个高斯点组成的场景 G = { g i } i = 1 N G = \{g_i\}_{i=1}^N G={gi}i=1N,每个高斯点 g i g_i gi 可以表示为:
g i = ( μ i , Σ i , o i , c i ) g_i = (\mu_i, \Sigma_i, o_i, c_i) gi=(μi,Σi,oi,ci)
其中: μ i ∈ R 3 \mu_i \in \mathbb{R}^3 μi∈R3 表示高斯点的均值(位置)。 Σ i ∈ R 3 × 3 \Sigma_i \in \mathbb{R}^{3 \times 3} Σi∈R3×3 表示协方差矩阵(描述高斯点的形状和方向)。 o i ∈ R o_i \in \mathbb{R} oi∈R 表示不透明度(opacity)。 c i ∈ SH ( 4 ) c_i \in \text{SH}(4) ci∈SH(4) 表示颜色因子,用球谐系数(spherical harmonic coefficients)表示。
在渲染过程中,像素的最终颜色值 C C C 可以通过一种类似于 A l p h a Alpha Alpha 混合的渲染方法计算得到【15】。该方法利用与像素重叠的 N N N 个有序高斯点的序列,其过程可以表示为:
C = ∑ i ∈ N c i α i ∏ j = 1 i − 1 ( 1 − α j ) (1) C = \sum_{i \in N} c_i \alpha_i \prod_{j=1}^{i-1} (1 - \alpha_j) \tag{1} C=i∈N∑ciαij=1∏i−1(1−αj)(1)
α i = o i ⋅ exp ( − 1 2 δ i ⊤ Σ i − 1 δ i ) (2) \alpha_i = o_i \cdot \exp\left(-\frac{1}{2} \delta_i^\top \Sigma_i^{-1} \delta_i \right) \tag{2} αi=oi⋅exp(−21δi⊤Σi−1δi)(2)
其中 α i \alpha_i αi 是第 i i i 个高斯的透明度。 δ i ∈ R 2 \delta_i \in \mathbb{R}^2 δi∈R2 表示 2D 高斯中心与当前像素之间的偏移量。 Σ 2 D ∈ R 2 × 2 \Sigma_{2D} \in \mathbb{R}^{2 \times 2} Σ2D∈R2×2 表示 2D 协方差矩阵。
修改的 Denavit-Hartenberg (MDH) [6] 约定是一种参数化模型,用于描述操控器的运动链。运动链中的每个关节和连杆都由一组参数来表征。在 MDH 中,可以为每个连杆构建一个变换矩阵,从而实现对操控器在每个运动阶段姿态的精确表示。设 x i x_i xi, y i y_i yi, z i z_i zi 表示第 i i i 个关节原点的坐标。对于一个操控器,第 i i i 个关节配置可以表示为:
Θ
=
{
β
i
,
a
i
,
d
i
,
θ
i
}
(3)
\Theta = \{\beta_i, a_i, d_i, \theta_i\} \tag{3}
Θ={βi,ai,di,θi}(3)
其中,
β
i
\beta_i
βi表示扭转角度,即从第
(
i
−
1
)
(i-1)
(i−1)个关节到第
i
i
i个关节围绕
x
x
x轴的旋转角度;
a
i
a_i
ai表示连杆长度,衡量沿着
x
x
x轴从
z
i
−
1
z_{i-1}
zi−1到
z
i
z_i
zi的距离;
d
i
d_i
di是连杆偏移量,表示沿着
z
z
z轴从
x
i
−
1
x_{i-1}
xi−1到
x
i
x_i
xi的位移;
θ
i
\theta_i
θi表示关节角度,即围绕
z
z
z轴从
x
i
−
1
x_{i-1}
xi−1到
x
i
x_i
xi的旋转角度。每个连杆的变换矩阵
T
i
T_i
Ti,使用MDH参数,可以表示为:
T i = [ cos θ i − sin θ i cos β i sin θ i sin β i a i cos θ i sin θ i cos θ i cos β i − cos θ i sin β i a i sin θ i 0 sin β i cos β i d i 0 0 0 1 ] (4) T_i = \begin{bmatrix} \cos\theta_i & -\sin\theta_i \cos\beta_i & \sin\theta_i \sin\beta_i & a_i \cos\theta_i \\ \sin\theta_i & \cos\theta_i \cos\beta_i & -\cos\theta_i \sin\beta_i & a_i \sin\theta_i \\ 0 & \sin\beta_i & \cos\beta_i & d_i \\ 0 & 0 & 0 & 1 \end{bmatrix}\tag{4} Ti= cosθisinθi00−sinθicosβicosθicosβisinβi0sinθisinβi−cosθisinβicosβi0aicosθiaisinθidi1 (4)
通过依次乘这些变换矩阵,我们可以得到从基座到末端执行器的最终变换矩阵。我们对每个关节进行分段处理,然后将关节内的所有高斯点视为一个点质量。接着,我们根据变换矩阵 T i T_i Ti 移动关节内的所有高斯点,从而实现对高斯点的运动学驱动控制。
3.3. Digital Twins Builder
数字孪生不仅应映射现实世界的资产,还需实现坐标对齐。通过Real2Sim布局对齐和Sim2GS稀疏关键点对齐,我们可以实现对现实世界的数字化,从而在真实世界、模拟环境和GS表示之间实现数字资产的流动。这种方法促进了数字资产的全向转换,实现全面的资产泛化。
3D资产生成:我们采用两种方法生成3D对象资产。对于现实世界的物体,我们使用转盘捕捉高质量的多视角图像,并通过GIM [32]提取匹配特征,以解决纹理缺失和反射等问题。然后结合COLMAP管道 [31]获取初始的SFM点云,随后通过3DGS进行重建。此外,对于从网络获取的新物体,我们首先使用Wonder3D [19]生成几何一致的法线向量和纹理网格,随后利用GaussianEditor [4]中的方法,并结合扩散模型 [30],在3DGS中完成物体的重建。
布局对齐:如图2所示,由于我们采用机器人手臂的局部坐标系,世界坐标和Isaac Sim坐标是轴对齐的。我们首先测量现实世界场景,以对齐Isaac Sim中导入的桌面场景的大小。在GS场景中,摄像头安装在基座关节上方1.6米处,从俯视角渲染分割图。为了实现坐标对齐,我们在Isaac Sim中同样在基座关节上方1.6米处放置俯视摄像头。通过比较从俯视视角、正视角和侧视角渲染的分割图与Isaac Sim中的视图,我们调整偏移量以实现布局对齐。
Sim2GS 对齐:给定基于 MDH 的变换矩阵
T
i
g
s
T_{i}^{gs}
Tigs 和模拟变换矩阵
T
i
s
i
m
T_{i}^{sim}
Tisim,存在一个变换矩阵
T
g
s
s
i
m
(
i
)
T_{gs}^{sim}(i)
Tgssim(i),使得:
T
g
s
s
i
m
(
i
)
=
T
i
s
i
m
⋅
T
i
g
s
(5)
T_{gs}^{sim}(i) = T_{i}^{sim} \cdot T_{i}^{gs}\tag{5}
Tgssim(i)=Tisim⋅Tigs(5)
为了计算平均变换矩阵
T
g
s
s
i
m
T_{gs}^{sim}
Tgssim,我们使用加权求和并应用归一化:
T
g
s
sim
=
∑
i
=
1
6
w
i
⋅
T
g
s
,
i
sim
∥
∑
i
=
1
6
w
i
⋅
T
g
s
,
i
sim
∥
(6)
T_{gs}^{\text{sim}} = \frac{\sum_{i=1}^6 w_i \cdot T_{gs, i}^{\text{sim}}}{\left\|\sum_{i=1}^6 w_i \cdot T_{gs, i}^{\text{sim}}\right\|}\tag{6}
Tgssim=
∑i=16wi⋅Tgs,isim
∑i=16wi⋅Tgs,isim(6)
其中,
w
i
w_i
wi 表示每个关节的权重。对于 Isaac Sim 中的目标物体 ( T_{\text{obj}}^{\text{sim}} ),可以通过以下公式将其转换为 GS 坐标系:
T
obj
gs
=
T
sim
gs
⋅
T
obj
sim
(7)
T_{\text{obj}}^{\text{gs}} = T_{\text{sim}}^{\text{gs}} \cdot T_{\text{obj}}^{\text{sim}}\tag{7}
Tobjgs=Tsimgs⋅Tobjsim(7)
相机定位:为了将现实世界的坐标系转换为 GS 坐标系,我们采用了 GS-SLAM [23] 中的定位方法。对于一个预训练的 GS 模型 G = { g i } i = 1 N G = \{g_i\}_{i=1}^N G={gi}i=1N,我们冻结了 3DGS 的属性并优化外部相机参数 T C W T_C^W TCW。
在相机定位过程中,仅优化当前相机的位姿,而不更新地图表示。对于单目情况,我们最小化以下光度残差:
L
p
h
o
=
∥
I
(
G
,
T
C
W
)
−
I
ˉ
∥
1
(8)
\mathcal{L}_{pho} = \left\| I(G, T_C^W) - \bar{I} \right\|_1 \tag{8}
Lpho=
I(G,TCW)−Iˉ
1(8)
其中, I ( G , T C W ) I(G, T_C^W) I(G,TCW) 表示从 T C W T_C^W TCW 渲染高斯分布 G G G,而 I ˉ \bar{I} Iˉ 是观测到的图像。
3.4. Scene Composer
场景编辑:为了将点云合并到机械臂场景中,首先计算标记点的变换
T
[
R
∣
t
]
T[R|t]
T[R∣t]。然后根据该变换将新场景中的点云坐标投影到机械臂坐标系中。通过以下公式将 3DGS 中的三维协方差
Σ
\Sigma
Σ展开为尺度
s
s
s和旋转四元数
q
q
q:
Σ
=
q
s
s
T
q
T
(9)
\Sigma = q s s^T q^T \tag{9}
Σ=qssTqT(9)
转换的比例 ( r ) 可以被分离并提取为一个独立的组成部分:
r
=
(
R
R
⊤
)
(
0
,
0
)
(10)
r = \sqrt{(RR^\top)_{(0,0)}}\tag{10}
r=(RR⊤)(0,0)(10)
我们可以进一步利用它对旋转矩阵
R
R
R 进行归一化:
R
norm
=
R
r
(11)
R_{\text{norm}} = \frac{R}{r} \tag{11}
Rnorm=rR(11)
高斯点的尺度属性
s
s
s 被调整为:
s
=
s
+
log
(
r
)
(12)
s = s + \log(r) \tag{12}
s=s+log(r)(12)
将变换
T
T
T 应用于高斯点坐标的公式如下:
μ
′
=
R
μ
+
t
(13)
\mu' = R\mu + t \tag{13}
μ′=Rμ+t(13)
Σ ′ = R norm Σ R norm ⊤ (14) \Sigma' = R_{\text{norm}} \Sigma R_{\text{norm}}^\top \tag{14} Σ′=RnormΣRnorm⊤(14)
对象编辑:此处的变换可以扩展上述场景编辑中提到的变换。然而,不同之处在于目标对象的坐标中心由公式 (7) 给出。其高斯点的坐标变换可以表示为:
μ
′
=
R
(
μ
−
μ
0
)
+
μ
0
+
t
(15)
\mu' = R(\mu-\mu_0) +\mu_0 + t \tag{15}
μ′=R(μ−μ0)+μ0+t(15)
3.5. Interactive Engine
我们的交互引擎可以作为以下两种角色运行:合成器和评估器。
合成器 :
作为合成器,交互引擎能够以低成本生成大量数据,用于下游策略学习。我们利用该引擎生成多种训练轨迹,包括机械臂运动轨迹和目标对象轨迹。这些轨迹驱动GS生成大规模的、具有高度真实感的模拟数据集,用于策略学习。这些多样化的数据集包括新视角渲染、场景组合以及对象替换等内容。
评估器 :
对于训练好的模型,直接在物理设备上测试可能存在安全风险,或者因高昂的复现成本而不实际。因此,我们将预测的轨迹转换为GS渲染的结果,以高效快速地评估模型的预测质量。具体而言,Isaac Sim [27] 输出目标对象和机械臂的初始状态,而GS根据状态进行渲染。渲染后的图像被输入策略网络,以预测下一帧的动作。
预测的动作被传递到仿真器中,用于运动学逆解析、碰撞检测及其他物理交互操作。随后,Isaac Sim 将解析出的六轴相对位姿发送给GS渲染器,后者将渲染结果作为反馈发送给策略网络。这个过程为预测下一步动作提供了视觉反馈,反复迭代,直到任务完成。

图3. Real2Sim新姿态合成: “Real”表示从新视角捕获的真实机械臂“RoboGSim”展示了由真实记录的轨迹驱动,从新视角渲染的新姿态。 “Depth”表示由GS渲染的深度图。 “Diff”是计算出的真实图像和渲染RGB图像之间的差异。我们计算了真实图像和RoboGSim渲染图像中同一点的像素距离,结果为7.37。

图4. Sim2Real轨迹回放: “Sim”行显示了从Isaac Sim收集的视频序列。 “Real”表示由模拟中的轨迹驱动的演示。 “RoboGSim”是由相同轨迹驱动的GS渲染结果。 “Diff”表示真实结果和渲染结果之间的差异。
4. Experiments
由于目前没有针对Real2Sim2Real的基准测试,我们设计了以下四组代理实验,以全面评估RoboGSim在仿真和现实世界中的表现。所有实验均使用UR5机器人臂。机器人臂的渲染部分基于Robo-GS [20]的代码库构建。
-
Real2Sim新姿势合成:验证在现实世界中捕获的机器人臂姿势是否可以有效地用于在仿真中实现精确控制。
-
Sim2Real轨迹回放:检查在仿真器中收集的轨迹是否能够被现实世界中的机器人臂准确地再现。
-
RoboGSim作为合成器:展示RoboGSim能够生成高保真演示,包括新的场景、视角和对象,并与现实世界对齐。
-
RoboGSim作为评估器:展示RoboGSim可以有效地执行闭环评估,为策略网络提供反馈。
4.1. Real2Sim Novel Pose Synthesis
新姿势合成的目标是验证Real2Sim重建的性能,特别关注机器人臂运动的精度和图像纹理的逼真度。静态场景使用来自GT第一帧的机器人臂初始姿势进行重建。使用从真实机器人臂收集的轨迹作为驱动力,并采用运动学控制来渲染新姿势。如图3所示,结果表明我们的重建准确地捕捉了机器人臂的纹理和物理动态,突出了RoboGSim所达到的逼真度。与由真实机器人驱动的新视角视频序列进行对比,RoboGSim实现了31.3的PSNR和0.79的SSIM渲染结果,同时确保10 FPS的实时渲染。
4.2. Sim2Real Trajectory Replay
为了验证Isaac Sim中的轨迹是否能够与真实机器和RoboGSim完美对齐,我们设计了一个实验,其中轨迹通过Isaac Sim收集,然后用该轨迹驱动GS渲染一个抓取可乐的场景,同时同样的轨迹用来驱动真实机器抓取一个可乐罐。如图4所示,对比结果显示,模拟的策略与机器人臂的实际物理行为之间有着很强的对齐性,突出了我们系统中Sim2Real转移的有效性。这些结果表明,我们的模拟能够可靠地建模真实世界的动态,促进了从模拟到现实世界的策略转移。

图5. 新场景合成: 我们展示了机械臂在新场景中的物理迁移结果,包括工厂、货架和两个户外环境。高保真多视角渲染结果表明,RoboGSim能够让机械臂在多样化的场景中无缝运行。

图6. RoboGSim 作为合成器: 前两行展示了从测试视角捕获的真实机器人视频,显示了VLA模型在抓取任务中的成功和失败案例。后两行展示了从测试视角捕获的真实机器人视频,显示了VLA模型在放置任务中的成功和失败案例。
4.3. RoboGSim as Synthesizer
在本节中,我们使用视觉-语言-动作(VLA)模型来验证RoboGSim合成数据的有效性。我们使用LLAMA3-8B [9]作为大语言模型(LLM),使用CLIP [29]作为视觉编码器,采用两层MLP作为投影网络。VLA模型在8xA100(80GB)上进行1个epoch的训练。训练过程分为三个阶段:(1)仅启用连接器进行预训练,使用LAION-558K数据集;(2)在LLaVA665K数据集上进行训练,解冻LLM;(3)使用机器人图像-动作数据进行监督微调(SFT),并冻结CLIP权重。
我们在一个具有挑战性的投环任务上进行了实验(见图6),该任务分为两个子任务:拾取环并将其投掷到目标上。对于真实数据,我们手动收集了1,000个样本。为了公平比较,我们使用了由RoboGSim生成的1,000个合成样本。在测试期间,每个模型进行了10次测试,每次试验允许进行三次抓取尝试。如果三次尝试均失败,则该试验标记为不成功。

表1. 真实机器人数据与合成数据的性能比较: 我们分别使用手动采集的操控数据和合成数据训练VLA模型。
如表1所示,用于VLA学习的合成数据在抓取和放置成功率上分别达到了40%和50%。相比之下,使用真实数据的VLA模型在抓取和放置成功率上分别达到了90%和70%。需要注意的是,手动收集数据总共花费了40小时,而RoboGSim仅需要4小时进行合成。进一步扩大合成数据的规模,可能会带来性能的进一步提升。图6展示了一些成功和失败案例的可视化结果。此外,我们还展示了有关新场景合成的更多定性分析。如图5所示,我们展示了UR5机器人臂迁移到新场景的物理结果,包括工厂、货架和两个户外环境。高保真的多视角渲染结果表明,RoboGSim使得机器人臂能够在不同场景中无缝操作。

图7. RoboGSim 作为评估器: 前两行分别标记为“Real”和“RoboGSim”,展示了由同一个VLA网络生成的轨迹驱动的真实机器人和RoboGSim捕获的画面。第三行左侧显示了现实推理场景中,由于机械臂超出其操作极限,导致的手动停机情况。右侧展示了VLA网络错误决策导致机械臂与桌面发生碰撞的实例。第四行展示了RoboGSim的仿真结果,能够有效避免危险的碰撞。
4.4. RoboGSim as Evaluator
现实的闭环评估对于验证和比较策略网络至关重要。在这一部分,我们主要探讨了使用RoboGSim作为评估器的有效性。其目的是展示其与现实世界推理的一致性。给定训练良好的VLA模型,我们将其部署在真实机器人和RoboGSim模拟环境中。如图7所示,我们的闭环模拟器RoboGSim能够再现与现实世界相似的结果。对于类似的错误情况,我们的RoboGSim能够避免现实世界中存在的问题,如违规和碰撞。因此,我们的评估器为策略提供了一个公平、安全且高效的评估平台。
5. Conclusion and Discussion
在本文中,我们基于3DGS构建了一个Real2Sim2Real模拟器。我们还引入了具有空间对齐的数字双胞胎系统,以实现3D资产流动。通过新的视角、物体、轨迹和场景,我们的RoboGSim引擎可以生成高保真度的合成数据。此外,由于我们精确的空间对齐,RoboGSim可以作为评估器,支持实时在线策略评估。
尽管取得了显著进展,但当前版本的RoboGSim仍有一些局限性。它目前只能模拟刚性物体,且合成物体的光照尚未与机器人臂完全统一。此外,生成几何一致的物体网格仍然是一个挑战,这通常是完成复杂操作任务的关键。未来,我们将探索更先进的网格提取方法,进一步扩展任务类别,并建立基准测试,以全面评估不同场景下的性能。
6. Acknowledgements
该工作得到了中国国家科技重大项目(2023ZD0121300)的支持。
422






