文章解决的问题是用只包含运动学的人类动作数据集,进行转换和增强,得到动力学上可行的humanoid、dexterous hand动作数据集。
提出了一个humanoid和dexterous hand通用的physical-based retarget框架。
这篇文章比较好的融合了模型预测控制、模拟退火和sim2real的相关技巧,构建了一个从人类到机器人轨迹转换的pipeline。
粗略阅读后的问题:
这篇文章提到采样,在retarget中是如何用到采样的?
contact guidance如何从human demonstration中获取,如何用到采样方法里?
背景

特定机器人本体的数据稀缺且难以采集,但现有的大量视频、动捕等人类动作数据集,以及从视频重建三维人体和手部、轨迹以及物体的方法为利用人类数据集提供humanoid和灵巧手演示数据提供了可能。但具身本体与人体在形态和动力学上的差异仍会产生gap。本文将其定义为Physics-based Retargeting问题,目标是给定人类演示,生成满足以下三个条件的机器人动作:
- 人体和机器人姿态对齐
- 与环境的接触一致
- 任务目标和人类演示一致
主要的问题包括在于:
- 动力学可行性
- 可扩展性和效率
- 对缺失接触和力信息的健壮性
现有的逆运动学方法在动力学可行性上存在问题;RL方法需要针对特定轨迹训练和进行奖励函数设计;遥操作动力学可行但耗财耗力,并且不能跨机器人本体。
本文提出了SPIDER,利用人类演示数据提供高层的接触指导,并从物理仿真中采样得到动力学可行且接触一致机器人动作的通用框架。
方法

Physics-based Retarget
构建了约束优化问题来进行Physics-based Retargeting,优化变量是机器人控制序列
u
0
:
T
−
1
u_{0:T-1}
u0:T−1。从人类演示中获取运动学参考状态
x
0
:
T
r
e
f
x^{ref}_{0:T}
x0:Tref,
x
t
r
e
f
=
{
q
t
r
e
f
,
q
˙
t
r
e
f
}
x^{ref}_t=\{q^{ref}_t, \dot q^{ref}_t\}
xtref={qtref,q˙tref},包括参考位置
q
r
e
f
q^{ref}
qref和速度
q
˙
r
e
f
\dot q^{ref}
q˙ref,参考位置
q
r
e
f
=
{
q
r
e
f
,
r
o
b
o
t
,
q
r
e
f
,
o
b
j
e
c
t
}
q^{ref}=\{q^{ref,robot}, q^{ref,object}\}
qref={qref,robot,qref,object}包括机器人位置
q
r
e
f
,
r
o
b
o
t
q^{ref,robot}
qref,robot和物体位置
q
r
e
f
,
o
b
j
e
c
t
q^{ref,object}
qref,object。
n
u
n_u
nu个关节的机器人,参考位置包括关节角度
q
r
e
f
,
j
o
i
n
t
∈
R
n
u
q^{ref,joint}\in \R^{n_u}
qref,joint∈Rnu和base位姿
T
r
e
f
,
b
a
s
e
∈
S
E
(
3
)
T^{ref, base}\in SE(3)
Tref,base∈SE(3);物体参考位置
q
r
e
f
,
o
b
j
e
c
t
∈
S
E
(
3
)
q^{ref, object} \in SE(3)
qref,object∈SE(3)。给定状态转移函数
f
(
x
t
,
u
t
,
t
)
f(x_t, u_t, t)
f(xt,ut,t),状态空间
χ
\chi
χ,动作空间
U
\mathcal{U}
U,优化问题形式如下:
min
u
0
:
T
−
1
J
(
u
0
:
T
−
1
)
=
min
u
0
:
T
−
1
(
∣
∣
x
T
−
x
T
r
e
f
∣
∣
Q
T
2
+
∑
t
=
0
T
−
1
(
∣
∣
x
t
+
1
−
x
t
+
1
r
e
f
∣
∣
Q
t
2
+
∣
∣
u
t
∣
∣
R
t
2
)
)
s
.
t
.
x
t
+
1
=
f
(
x
t
,
u
t
,
t
)
∀
t
∈
{
0
,
1
,
.
.
.
,
T
−
1
}
x
0
:
T
∈
χ
,
u
0
:
T
−
1
∈
U
\min_{u_{0:T-1}}J(u_{0:T-1})=\min_{u_{0:T-1}}(||x_T-x^{ref}_T||^2_{Q_T}+\sum_{t=0}^{T-1}(||x_{t+1}-x^{ref}_{t+1}||^2_{Q_t}+||u_t||^2_{R_t}))\\s.t.\ x_{t+1}=f(x_t, u_t, t)\ \ \ \ \forall t\in\{ 0,1,..., T-1\}\\ x_{0:T}\in \chi, u_{0:T-1}\in \mathcal{U}
u0:T−1minJ(u0:T−1)=u0:T−1min(∣∣xT−xTref∣∣QT2+t=0∑T−1(∣∣xt+1−xt+1ref∣∣Qt2+∣∣ut∣∣Rt2))s.t. xt+1=f(xt,ut,t) ∀t∈{0,1,...,T−1}x0:T∈χ,u0:T−1∈U
其中
Q
t
,
R
t
Q_t, R_t
Qt,Rt是状态和控制输入权重矩阵,文章里所用$Q_t=, $。
注①:
∣
∣
x
T
−
x
T
r
e
f
∣
∣
Q
T
2
||x_T-x^{ref}_T||^2_{Q_T}
∣∣xT−xTref∣∣QT2是控制中常用的表征二次型的形式,即加权后的二阶范数
∣
∣
x
T
−
x
T
r
e
f
∣
∣
Q
T
2
=
(
x
T
−
x
T
r
e
f
)
T
Q
T
(
x
T
−
x
T
r
e
f
)
||x_T-x^{ref}_T||^2_{Q_T}=(x_T-x^{ref}_T)^TQ_T(x_T-x^{ref}_T)
∣∣xT−xTref∣∣QT2=(xT−xTref)TQT(xT−xTref)
文章里所用
Q
T
=
d
i
a
g
(
q
r
o
b
o
t
,
q
o
b
j
e
c
t
)
,
R
T
=
d
i
a
g
(
r
r
o
b
o
t
,
r
o
b
j
e
c
t
)
Q_T=diag({q_{robot}, q_{object}}), R_T=diag(r_{robot}, r_{object})
QT=diag(qrobot,qobject),RT=diag(rrobot,robject)
注②:
这里的机器人参考状态
q
r
e
f
,
r
o
b
o
t
q^{ref,robot}
qref,robot是从人类演示数据得到手部MANO,再通过IK solver最小化关键点之间的距离得到的。
Sampling-based Optimization
Retarget中的优化问题非凸且不连续,基于采样的优化并不依赖光滑和凸性假设,提供了一种解决方案。本文结合模拟退火的思想设计了采样优化器。
参数包括迭代次数
N
N
N,horizon
H
H
H,退火参数
β
1
,
β
2
∈
(
0
,
1
)
\beta_1, \beta_2\in (0,1)
β1,β2∈(0,1)。整体算法是比较标准的模拟退火。
附:模拟退火确实好用,在dexgraspnet和这里都有见到。但是这里的退火过程,看起来随着迭代次数i的增加以及预测时间步h的增加是变大的,感觉有点怪,而且文章里也写的是随迭代采样半径逐渐收敛。
Virtual Contact Guidance
由于抓取的多解性,为了让retarget结果与演示中的接触一致,对sampling optimization过程引入了virtual contact guidance,用手物接触点对的相对位置向量构建了逐步收敛的采样约束域。
具体而言,每对手物接触点对指定一个机器人关键点
p
k
,
t
r
o
b
o
t
p^{robot}_{k,t}
pk,trobot和一个物体关键点
p
k
,
t
o
b
j
e
c
t
p^{object}_{k,t}
pk,tobject,得到相对位置
r
o
b
o
t
p
k
,
t
o
b
j
e
c
t
=
p
k
,
t
r
o
b
o
t
−
p
k
,
t
o
b
j
e
c
t
^{robot}p^{object}_{k,t}=p^{robot}_{k,t}-p^{object}_{k,t}
robotpk,tobject=pk,trobot−pk,tobject,以及从演示中得到的对应参考值
r
o
b
o
t
p
k
,
t
o
b
j
e
c
t
,
r
e
f
=
p
k
,
t
r
o
b
o
t
,
r
e
f
−
p
k
,
t
o
b
j
e
c
t
,
r
e
f
^{robot}p^{object, ref}_{k,t}=p^{robot, ref}_{k,t}-p^{object, ref}_{k,t}
robotpk,tobject,ref=pk,trobot,ref−pk,tobject,ref,当数据集中的参考接触
r
o
b
o
t
p
k
,
t
o
b
j
e
c
t
,
r
e
f
^{robot}p^{object, ref}_{k,t}
robotpk,tobject,ref符合条件时应用约束。
Trajectory Robustification
优化问题里用类似domain randomization的方法,并行的在一组仿真参数和噪声上计算一组代价函数值,并取其中最大的一个。并认为最小化这个最大的价值函数就能得到最robust的轨迹。
Data Augmentation
数据增强
- 替换物体mesh为相似交互动作的物体,以及用不同大小的物体和给物体初始位姿加扰动
- humanoid locomotion任务中在physics-based retargeting里添加干扰力
实验
数据集
- 灵巧操作:GigaHands,OakInk,ARCTIC
- 人形locomotion:LAFAN1,AMASS
- 人形interaction:OMOMO
任务主要是进行物体移动,按照物体的轨迹误差定义了任务成功条件,并用任务成功率作为评价指标。
在这一章里用retarget结果直接对比了优化得到的数据质量和算法效率,在下一章应用里展示了从rgb视频重建,以及将数据与RL结合的效果。
总结
Hand Object Interaction、dexterous hand和humanoid的很多文章有点类似控制里基于优化的控制器设计的思路,做了一些不太优雅的optimization来进行retarget等。希望能看到更多更加ai的文章。
感兴趣的相关工作
主要是一些retarget方法,此外还介绍了从人类演示数据中学习manipulation,以及sampling-based optimization方法。
Learning-Based Retargeting Networks
描述是训练网络完成从人类动作到机器人动作的变换。
Sungjae Park, Homanga Bharadhwaj, and Shubham Tulsiani. DemoDiffusion: One-Shot Human Imitation using
pre-trained Diffusion Policy. arXiv:2506.20668, 2025.
Zhao-Heng Yin, Changhao Wang, Luis Pineda, Francois Hogan, Krishna Bodduluri, Akash Sharma, Patrick Lancaster,
Ishita Prasad, Mrinal Kalakrishnan, Jitendra Malik, Mike Lambeta, Tingfan Wu, Pieter Abbeel, and Mustafa
Mukadam. DexterityGen: Foundation Controller for Unprecedented Dexterity. In RSS, 2025b.
RL-based Retargeting
- 用RL进行retarget。
Tyler Ga Wei Lum, Olivia Y. Lee, C. Karen Liu, and Jeannette Bohg. Crossing the Human-Robot Embodiment Gap
with Sim-to-Real RL using One Human Demonstration. In CoRL, 2025
Kailin Li, Puhao Li, Tengyu Liu, Yuyang Li, and Siyuan Huang. ManipTrans: Efficient Dexterous Bimanual
Manipulation Transfer via Residual Learning. In CVPR, 2025c.(这篇也是SPIDER主要对比的baseline) - 以及结合curriculum learning来进行。
Zhao Mandi, Yifan Hou, Dieter Fox, Yashraj Narang, Ajay Mandlekar, and Shuran Song. DexMachina: Functional
Retargeting for Bimanual Dexterous Manipulation. arXiv:2505.24853, 2025.
Xueyi Liu, Kangbo Lyu, Jieqiong Zhang, Tao Du, and Li Yi. QuasiSim: Parameterized Quasi-Physical Simulators for
Dexterous Manipulations Transfer. In ECCV, 2024. - 缺点是计算量大,要在每条轨迹上训练。
Kinematic Retargeting
看起来是从人类动作空间到机器人动作空间的直接映射,或者IK solver这种。
Optimization-based Retargeting
构建优化问题-求解的retarget方法。
问题解答
- Q: 这篇文章提到采样,在retarget中是如何用到采样的?
A: 在retarget中使用sampling-based optimization,用模拟退火求解。 - Q: contact guidance如何从human demonstration中获取,如何用到采样方法里?
A: 看起来是从MANO重建结果/标注数据到灵巧手轨迹进行逆运动学解算,以及物体姿态估计;作为约束引入到采样方法中。
5万+

被折叠的 条评论
为什么被折叠?



