Residual Force Control for Agile Human Behavior Imitation and Extended Motion Synthesis
研究目标
基于物理的运动生成模型通过引入物理约束能够生成更加自然的动作,但由于训练环境中使用的动力学模型与测试/现实中的实际动力学模型存在差异(人体模型 vs 真实人体、仿真环境 vs 真实环境,等),导致人体模型与真实人类的动力学不匹配问题,从而难以实现高敏捷动作模仿(如芭蕾舞蹈)和无任务引导的多模态长期运动合成
研究贡献
- 引入残差力控制(Residual Force Control,RFC)概念,用于微调已有控制策略的输出,使其适应当前真实环境的动力学(质量、摩擦力、重力、关节力矩、速度和加速度等),增强模型应对复杂动作的能力(高敏捷动作)
- 提出双策略控制框架,能够在没有任务指导或用户输入的情况下合成多模态的长期人体运动
问题建模
该论文将人体控制的动作模仿任务建模成马尔科夫决策过程(MDP),然后使用强化学习进行求解。MDP 由五部分组成 M=(S,A,T,R,γ)\mathcal{M}=(\mathcal{S,A,T},R,\gamma)M=(S,A,T,R,γ),其中
- S\mathcal{S}S 为状态空间(States),表示当前的身体姿态 x=state(q,q˙)x=state(q,\dot{q})x=state(q,q˙),其中 qqq 表示所有关节的自由度(Degrees of Freedom),由根关节自由度 qrq_rqr(身体位置和朝向)和非根关节角度 qnrq_{nr}qnr 组成,q˙\dot{q}q˙ 表示所有关节自由度的速度(线速度、角速度)
- A\mathcal{A}A 为动作空间(Actions),采用目标角度 uuu 作为强化学习的策略输出,然后使用比例微分(PD)控制器计算对应关节扭矩 τ\tauτ:τ=kp∘(u−qnr)−kd∘q˙nr\tau=k_p\circ (u-q_{nr}) - k_d \circ \dot{q}_{nr}τ=kp∘(u−qnr)−kd∘q˙nr,其中 kp,kdk_p,k_dkp,kd 为手动设置的比例和微分增益,分别用于跟踪目标角度和抑制关节速度过快导致的振荡
- T\mathcal{T}T 为转移函数(Transition),根据给定当前状态 sts_tst 和动作 ata_tat,计算下一状态 st+1s_{t+1}st+1 的概率分布 T(st+1∣st,at)\mathcal{T}(s_{t+1}|s_t,a_t)T(st+1∣st,at)
- RRR为奖励函数(Reward),用于计算 agent 身体姿态 xtx_txt 与参考动作 x^t\hat{x}_tx^t 的相似度,包括衡量 agent 非根关节自由度、关节速度、末帧姿势、质心与参考动作的差异
- γ\gammaγ 为折扣因子,用于平衡即时奖励与长期奖励
采用参数化的高斯策略,给定状态 sss 输出动作 aaa 的条件分布 πθ=N(a∣s)\pi_\theta=\mathcal{N}(a|s)πθ=N(a∣s)
残差力控制(RFC)
在原始控制动作 ata_tat 之外引入额外的修正动作 a~t\tilde{a}_ta~t(即残差力),形成复合动作(at,a~t)(a_t, \tilde{a}_t)(at,a~t)。该残差力作为时变的动力学补偿项,允许 agent 更好地模仿参考动作。因此,需要设计复合策略 π~θ(at,a~t∣st)\tilde{\pi}_\theta(a_t,\tilde{a}_t|s_t)π~

最低0.47元/天 解锁文章
6982






