MIMO 是一个强大的可控角色视频合成模型,能够基于用户输入合成具有复杂动作和物体交互的角色视频。
通过将 2D 视频解码为紧凑的空间编码,MIMO 提供对任意角色、复杂动作和交互场景的高效控制能力。
这个模型的创新性设计,让用户能够创造出具有 3D-aware 的角色动画视频,在角色、场景和动作之间实现出色的交互。
亮点功能
-
🎥 多输入支持:MIMO 支持多种输入形式,包括单张图像(角色)、动作序列、视频/图像(场景)等,甚至可以使用驱动视频作为输入,极大地增强了模型的灵活性。
-
🧩 空间分解策略:模型采用了空间分解策略,将视频片段分为主角色、场景背景和浮动遮挡物三部分,并基于 3D 深度信息进行编码。这些空间编码成为视频合成的重要控制信号。
-
🔄 高度可控性:MIMO 允许用户灵活控制角色、动作和场景,支持 3D-aware 的合成效果,尤其擅长生成包含复杂动作和交互场景的高质量动画化角色视频。
-
💡 出色的实验效果:实验表明,MIMO 在任意角色控制、复杂动作合成和场景交互方面都优于现有的 2D 和 3D 方法,带来了令人印象深刻的合成效果。