一、介绍
MimicMotion (运动模仿)是具有置信感知姿势指导的高质量人体运动视频生成模型。它可以在任何运动引导下生成任意长度的高质量视频。目前它支持以 576x1024 分辨率生成最多 72 帧的视频。
二、特点
首先,通过置信度感知姿态引导,可以实现时间平滑度,从而通过大规模训练数据增强模型鲁棒性。
其次,基于姿态置信度的区域损失放大显著缓解了图像的失真。
最后,针对长而流畅的视频生成,该文提出一种渐进式潜融合策略。通过这种方式,能以可接受的资源消耗生成任意长度的视频。
简而言之:就是通过一张静态照片和一段视频,实现静态照片人物模仿视频中人物动作的模型。
三、构建
VRAM要求和运行时间:
对于 35 秒的演示视频,72 帧模型需要16GB 显存 (4060ti),并在4090GPU上20分钟内能完成。
16 帧 U-Net 型号的最低显存要求为 8GB;但是VAE 解码器需要 16GB。您可以选择在 CPU 上运行 VAE 解码器。
环境推荐:python 3+ with torch 2.x 使用 Nvidia V100 GPU(显卡3090及以上也行)进行验证。
1. 环境搭建
(1)更新软件包
apt-get update
(2)安装所需命令及依赖
apt-get install sudo
sudo apt-get install -y git wget curl bzip2 build-essential ca-certificates gcc
(3)从github仓库克隆项目
git clone https://github.com/Tencent/MimicMotion.git
cd MimicMotion
mkdir models
(4)安装conda
下面需要使用Anaconda或Mimiconda创建虚拟环境,可以输入 conda --version进行检测,如果已安装请跳过该步。下面是Mimiconda的安装过程:
- 下载 Miniconda 安装脚本
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
- 运行安装脚本
bash Miniconda3-latest-Linux-x86_64.sh
- 遵循安装提示并初始化
按 Enter 键查看许可证条款,阅读完毕后输入 yes 接受条款,安装完成后,脚本会询问是否初始化 Conda 环境,输入 yes 并按 Enter 键。
- 运行
source ~/.bashrc命令激活 Conda环境 - 再次输入
conda --version

最低0.47元/天 解锁文章
425

被折叠的 条评论
为什么被折叠?



