效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜

部署运行你感兴趣的模型镜像
白交 发自 凹非寺
量子位 | 公众号 QbitAI

一句话,就让绿巨人戴上VR眼镜。

4K画质那种。

79ffdfcf02c90c5e03fe402009e50788.gif

熊猫的奇幻漂流~

23135f5621a82de3a905e1ad7260409e.gif

这是字节最新的AI视频生成模型MagicVideo-V2,各种奇思妙想的想法都能实现。它不仅支持4K、8K超高分辨率,轻松hold各种绘图风格。

5cd52c838bc419598b57622828c609a6.gif
从左往右:油画风、赛博风、设计风

测评效果超过Gen-2、Pika以及现有AI视频生成工具。

结果上线不到24小时就引发众人围观,比如一条推文就有近20万浏览量。

不少网友惊讶其效果,甚至直言:比runway和pika还要好

103804097cfd9fe09110f1c0c9b1fab3.png

“比runway和pika还要好”

研究人员也的确进行了实际的效果比较。选手分别为:MagicVideo-V2、StabilityAI的SVD-XT,新潜力玩家Pika1.0,以及Runway的Gen-2

第一轮:光影效果

夕阳西下,旅行者独自行走在迷雾森林中。

69d5ad7b71a51a0c033005ce358add80.gif

(从左到右依次是:MagicVideo-V2、SVD-XT,右上Pika,右下Gen-2,下同)

可以看到,MagicVideo-V2、Gen-2和Pika都有明显的光影。不过Pika看不出是为旅行者,MagicVideo-V2的色调更为丰富。

第二轮:情境剧情的表达。

1910 年代的情景喜剧,讲述社会中的日常生活和琐事

2db0b71008a3c28c2ade6c9d0487abdd.gif

这一轮明显也是MagicVideo-V2、Gen-2更胜一筹。SVD-XT呈现的中景构图,虽然年代体现出来了,但表达不够。

第三轮:写实。

小男孩在公园的小路上骑着自行车,车轮踩在碎石上发出嘎吱嘎吱的声音.

c10039be4da27d8a95090fb83fd57b80.gif

这次对比就更为明显了。MagicVideo-V2和SVD-XT是完整体现出句子意思的,不过MagicVideo-V2可以看到小孩明显脚在动的细节。

除此之外,研究人员还将MagicVideo-V2与当下最先方法进行一对一的人类评估。

85d1862c97af9df1b0044334bb7fdf78.png

结果显示,相较于其他方法,人们认为MagicVideo-V2的效果更好。

23ba585d1af24b8fbf853ae9038bc4e8.png
(绿色、灰色和粉色条分别代表 MagicVideo-V2 被评价为更好、相当或较差的试验效果。)

如何实现?

简单来说,MagicVideo-V2是一条视频生成流水线,集成了文本到图像模型、视频运动生成器、参考图像嵌入模块、插值模块。

29f44a7360dfcfab8c733a7600ffeef0.png

首先是有T2I模块首先根据文字生成1024×1024图像,随后I2V模块对该静态图像进行动画处理,生成600×600×32的帧序列,然后再用V2V模块增强,并完善视频内容,最后再用插值模块将序列扩展到94个帧。

这样一来,既保证了高保真,时间上也有连续性。

不过早在2022年11月字节曾推出了MagicVideo V1版。

bb5af5c8d66612b821ef75afe38da96e.png
06ff25e853cbeda471091fc92c26f479.png

不过,当时更强调的是高效性,它能在单个GPU卡上生成256x256分辨率的视频。

参考链接:
https://twitter.com/arankomatsuzaki/status/1744918551415443768?s=20
项目链接:
https://magicvideov2.github.io/
论文链接:
https://arxiv.org/abs/2401.04468
https://arxiv.org/abs/2211.11018

—  —

点这里👇关注我,记得标星哦~

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.9

TensorFlow-v2.9

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。 它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值