背景
关于人体动作的生成范式目前主流的方向可以分为以下两种:
- Sequence based motion generation: 给定控制信号然后一次性生成连续的动作,能生成一些连续高阶语义的动作信号,因为其能看到整个动作信号。eg: MDM: Human Motion Diffusion Model, Tevet, et al, ICLR 2023
- Auto-regression based motion generation: 由T帧的环境和状态去预测T+1帧的状态,这样用户能在中途去随时的改变输入信号,从而便于用户去交互去改变输出的状态。eg : Synthesizing Physical Character-Scene Interactions, Hassan et al. SIGGRAPH 2023
针对上面的两种范式的特点,在实际应用过程中,作者认为第二种范式会更加友好的方便用户去控制动作的生成或者说人的状态,以便后续生成的动作与环境做交互。基于此,本篇论文也是基于自回归模型范式。
COMODO: Online Controlled MDM model
作者提出COMODO自回归模型,它通过对可实时改变对基模型输入动作信号从而实现得到高质量的可控的动作,其输入的信号有三种模式分别是random sampling(生模模型随机采样无控制信号输入) / conditional inpainting(例如控制其动作的范围,只能在下图红线上做动作生成) / policy-based controlling (去改变一些点或者说是指定手或者脚的动作),最终实现整个流程。COMODO主要有3点贡献:
- 更好的多样性
- 更加灵活,方便用户随时改变输入信号做交互
- 更加高质量的结果

本文介绍了基于自回归模型的COMODO,一种允许用户实时控制动作生成的模型,通过randomsampling、conditionalinpainting和policy-basedcontrolling三种输入模式提高多样性和灵活性。该模型通过噪声重建和控制信号的加入,实现与环境的交互,预示着未来细粒度动作控制和跨模型融合的发展方向。
最低0.47元/天 解锁文章
4万+





