一、介绍
EchoMimicV2:面向引人注目、简化和半身体人体动画。
EchoMimicV2 是阿里蚂蚁集团推出的一款先进的半身人体 AI 数字人项目,具有以下特点和优势优快云博客:
技术原理
- 音频 - 姿势动态协调(APDH):包括姿势采样和音频扩散,逐步减少姿势条件的依赖,让音频条件在动画中扮演更重要的角色,并将音频条件的影响从嘴唇扩散到整个面部,再到全身,增强音频与动画的同步性。
- 头部局部注意力(Head Partial Attention, HPA):在训练中整合头部数据,增强面部表情的细节,无需额外的插件或模块。
- 特定阶段去噪损失(Phase-specific Denoising Loss, PhD Loss):将去噪过程分为三个阶段,每个阶段都有特定的优化目标。
- Latent Diffusion Model(LDM):用变分自编码器(VAE)将图像映射到潜在空间,在训练过程中逐步添加噪声,估计并去除每个时间步的噪声。
- ReferenceNet-based Backbone:用 ReferenceNet 从参考图像中提取特征,将其注入到去噪 U-Net 中,保持生成图像与参考图像之间的外观一致性。
功能与效果
- 音频驱动的动画生成:可以用音频剪辑驱动人物的面部表情和身体动作,实现音频与动画的同步,支持中文和英文。
- 半身动画制作:从仅生成头部动画扩展到生成包括上半身的动画,能生成完整的数字人半身动画,实现从中英文语音到动作的无缝转换。
- 增强的表现力:通过姿势采样和音频扩散技术,大大增强了半身细节、面部表情和手势的自然表现。
- 简化的控制条件:减少动画生成过程中所需的复杂条件,让动画制作更为简便。
二、部署过程
基础环境最低要求说明:
环境名称 | 版本信息1 |
---|---|
Ubuntu | 22.04.4 LTS |
Cuda | V12.1.105 |
Python | 3.10 |
NVIDIA Corporation | RTX 4090 |
1. 更新基础软件包
查看系统版本信息
# 查看系统版本信息,包括ID(如ubuntu、centos等)、版本号、名称、版本号ID等
cat /etc/os-release
配置 apt 国内源
# 更新软件包列表
apt-get update
这个命令用于更新本地软件包索引。它会从所有配置的源中检索最新的软件包列表信息,但不会安装或升级任何软件包。这是安装新软件包或进行软件包升级之前的推荐步骤,因为它确保了您获取的是最新版本的软件包。
# 安装 Vim 编辑器
apt-get install -y vim
这个命令用于安装 Vim 文本编辑器。-y
选项表示自动回答所有的提示为“是”,这样在安装过程中就不需要手动确认。Vim 是一个非常强大的文本编辑器,广泛用于编程和配置文件的编辑。
为了安全起见,先备份当前的 sources.list
文件之后,再进行修改:
#