创新点:
- VQ-VAE 👉 Residual VQ-VAE,对每个 motion sequence 输出一组 base motion tokens 和 v 组 residual motion tokens
- bidirectional 的 Masked transformer 用来生成 base motion tokens
- Residual Transformer 对 residual motion tokens 进行建模
1. Residual VQ-VAE
![]()

VQ 0:就是和 T2M-GPT 一样的 codebook(T2M-GPT 的 VQ-VAE 只有这一级) 👉 base motion tokens
VQ 1:就是把 Encoder 的 output - VQ 0 codebook 的 embedding,对 residual(差值)的结果建立一个 codebook 👉 residual motion tokens
VQ V:(以此类推) 👉 residual motion tokens
decode 的时候,把每个层级的 token embedding 加起来,得到一个 embedding,送入 Decoder 里。
训练:

最低0.47元/天 解锁文章
220






