腾讯开源视频生成新工具,论文还没发先上代码的那种

部署运行你感兴趣的模型镜像
西风 发自 凹非寺
量子位 | 公众号 QbitAI

先上代码再发论文,腾讯新开源文生视频工具火了。

名为MuseV,主打基于视觉条件并行去噪的无限长度和高保真虚拟人视频生成。

老规矩,先看效果。

静态的金克丝秒秒钟就能动起来朝你抛媚眼:

5556a0a39929366a5e81dc34cfca4d98.gif

画中诗圣也“活”了过来:

7e7bf8925b576c417574d70534d074f6.gif

各种风格都能驾驭,风景图也不在话下:

53bdbe5c7488c0326cf5127850166a0d.gif

更有搞笑风《微笑的骑士》:

4834e5147b770da678890adc595f4f01.gif

再上难度,复杂些的弹唱也处理得比较自然:

f6213beed68dc247abffa7685d57ad37.gif

此外,加入“骨架”控制动作、姿势也可以:

aa9276a6a425c5817cd54f638994c979.gif

腾讯这次论文还没发直接放出训练好的模型和部署运行的代码的操作让网友眼前一亮。主页显示训练代码也即将推出。

不少人已趁热码住,GitHub获星500+。

475908e8867bac9b4b58bb999158f02f.png

还有网友已经玩上了:

3cd3c5befb1f8f22ca28e20e89491854.gif

围观网友直呼距离成为视频达人只差一个AI。

881ac0fd296762a38d7f2233b5dbff68.png

嘴唇也能同步

除了直接放出模型代码,目前MuseV还有demo可体验。

cd74241b92b511bbfa22e2556171191f.png

demo界面有两种玩法。

一种可以上传一张图然后加上Prompt在这张图的基础上进行视频生成;另一种是上传一个参考视频和一张图,使图片中的内容按照视频中的动作运动起来。

5aaf24f4015dbb5b12b65379c9f7a0a7.png

紧接着下方还有一些参数可以调整。可以自定义视频的时长以及视频的尺寸。

847e558fd90142f797fa2491841a3211.png

此外值得一提的是,文本、图像到视频的生成结果的所有帧直接由MuseV生成,没有时序超分辨、空间超分辨等任何后处理。

而输入视频控制姿态的生成模式下,开发团队表示需要参考视频的首帧条件和参考图像的首帧条件对齐,不然会破坏首帧的信息,效果会更差。所以一般生成流程是:

  • 确定参考视频;

  • 用参考视频的首帧走图生图、controlnet流程,可以使用MJ等各种平台;

  • 拿第二步中的生成图、参考视频用MuseV生成视频。

7efd4bf3b4474d4ce8442b2003ac0f6d.gif

‍‍除MuseV,开发团队还表示即将发布一个实时高质量的唇同步模型——MuseTalk,可与MuseV一起搭配使用。

用上它,蒙娜丽莎也能对嘴型唱歌。

MuseV里面长啥样?

技术方面,据了解MuseV是在去年7月左右基于扩散模型实现的技术进展,受到Sora启发,开发团队决定开源MuseV,之后将转向扩散+Transformer方案。

也就是说,MuseV是基于扩散模型的虚拟人视频生成框架

模型架构如下图所示:

1211edca27484f772690d867a65467d2.png

总的来说,MuseV具有以下特点:

首先是支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。

并行去噪算法示意图如下:

7b5dac0aa82eac483785d065c974e5b2.png

其次,MuseV提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。

而且支持图像到视频、文本到图像到视频、视频到视频的生成;兼容Stable Diffusion文图生成生态系统,包括base_model、lora、controlnet等。

还支持多参考图像技术,包括IPAdapter、ReferenceOnly、ReferenceNet、IPAdapterFaceID。

参考链接:
[1]https://github.com/TMElyralab/MuseV
[2]https://twitter.com/Gorden_Sun/status/1774825159939256678

您可能感兴趣的与本文相关的镜像

Wan2.2-T2V-A5B

Wan2.2-T2V-A5B

文生视频
Wan2.2

Wan2.2是由通义万相开源高效文本到视频生成模型,是有​50亿参数的轻量级视频生成模型,专为快速内容创作优化。支持480P视频生成,具备优秀的时序连贯性和运动推理能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值