腾讯版Sora开源,大模型继续狂飙。

你好,我是郭震

Sora震撼上线,大模型继续狂飙。

通过公布的一些短视频,来看Sora的视频生成效果。

为了更加容易在公众号展示,把视频尺寸压缩为原来的1/3,大家可以看看效果:

outside_default.png

outside_default.png

outside_default.png

outside_default.png

outside_default.png

以上5个Sora生成视频,因Sora是闭源的,具体的技术细节,无从得知,只能通过公布的技术框架,了解到:

Sora 可能基于GPT-4 多模态版本为基础模型,引入扩展模型(如扩散模型或基于时序卷积网络的生成模块),以支持视频帧的生成与序列化,通过 Transformer 的时间嵌入机制对视频帧间的时序关系进行建模。

7a11ff6c3184d9decb90ee3405673660.png

文本到视频的生成通过一个联合的嵌入空间实现,将文本和视频的语义统一对齐。初步生成低分辨率的视频帧序列,使用超分辨率网络提升视频帧质量(如 Real-ESRGAN 模块)。

可能采用扩散去噪模型进行多帧生成的平滑优化,保证连续性。

ccb1603b9bcc961b0b95f7c2424d1e57.png

更多视频生成的技术细节,我们不妨从上周发布的腾讯版Sora来一探究竟,腾讯开源了视频生成的代码,部署在下面两个平台:

da3f02e0b8ce1f29b7ececc41d7ae0fe.png

同时也发布了技术report:

02e5bf64a474f6cbdd7087618a9ff505.png

还能通过PC在线免费体验:

d69275b0f6293bd81bfad03fb717d6e9.png

腾讯视频模型称为HunyuanVideo,简称混元视频模型。

根据官方介绍,模型拥有130亿参数,是目前开源领域内参数规模最大的文本生成视频模型。

先看腾讯版Sora生成的几个视频,同样为了兼容公众号文章,视频尺寸压缩为1/3:

outside_default.png

outside_default.png

outside_default.png

outside_default.png

outside_default.png

因视频已被压缩,抛开清晰度,你能发现:Sora生成的5条视频,腾讯混元生成的这5条视频,有什么区别吗?

衡量文生视频好坏,最重要的三个核心指标是什么?如下所示:

ece5d18e225ff2a3aae596a7a2e9ce8a.png

最重要的指标,物理一致性,也就是视频动作是否符合真实物理世界,如重力效果;

第二,场景一致性,帧间是否连续,如布局、光线;

第三,视频是否准确传达了输入文本的核心语义。

下面我亲自实践下,腾讯混元视频模型效果,进入网站,输入这些文字:

中国古代盛唐的江南豫章美景:落霞与孤鹜齐飞,秋水共长天一色

0a4baedec307ad93cdcb8506e73cf445.png

然后点击右下角的按钮,就进入视频生成阶段:

1920a7c49812283c082d187bc3d89477.png

步骤可以说是非常简单,做到了一句话生成视频。提示预计5分钟,实际大概2分钟左右就出来下面视频:

f66967661f2c32dfaceef86ff7246054.png

为了展示在公众号里,同样尺寸压缩为1/3后展示:

outside_default.png

根据腾讯混元视频模型技术Report,混元计算资源远远小于闭源的Sora模型:

15aa52d2f8c4f7a6cda441728a16e641.png

腾讯混元视频模型,目前在开源里面得分最高:

8779dd2ad31c2ab9824c69471822b144.png

混元模型架构如下:

8667044c00bdc1b63ee205c49d62c74b.png

模型在时空压缩的潜在空间中训练,该空间通过因果3D VAE压缩。

文本提示通过大语言模型编码,并作为条件使用。

以高斯噪声和条件为输入,模型生成输出潜变量,并通过3D VAE解码器解码为图像或视频。

3D VAE压缩组件是核心技术之一,其架构如下所示:

22e7a509267662d6843a023c5fb66e6a.png

上图中间小块,即为压缩后隐式表达。

另一个核心是文本编码组件:如下图右侧所示,腾讯提出了预训练多模态编码方法:

dff1b388f236b7271fe6a1399d4ae444.png

下面详细介绍了MLLM优势,包括:对齐能力强,图片细节处理和复杂推理强,指令跟随能力更强:

5bd061c4ac128c9db59feac0a4c84584.png

训练阶段,模型不基于预训练,而是完全从零开始训。损失函数另外引入了感知损失和对抗损失。训练策略是课程学习策略,从低到高分辨率:

73173bbb17a3e17792286ac302c26098.png

推理阶段主要challenge,单GPU内存会爆。处理方法:采用时空平铺策略,将输入视频在空间和时间维度上分割成重叠的平铺块。每个平铺块分别进行编码/解码,输出结果再拼接在一起:

19c093a45a7d0810b9117b25161ec831.png

关于混元视频模型的scaling laws,会在接下来研究:

13fa3aeabd96ed0307e8be360c28cb15.png

论文给出了更多生成视频图形展示:

e7f0fa4e631058e8f0bee532758311d6.png

1069edf7304dc92943ccbdf7ad5a941e.png

更多有趣的应用,姿势跟随对齐:

b4cf38d06be3229f3e7f6e61c3b65a76.png

多姿势和表情对齐:

e8d65d9e1d50a47f84c5cecb6f31f6e1.png

总结

腾讯混元视频模型,技术创新还是蛮多的,并且代码开源了,这会活跃社区,技术贡献会被进一步放大,期望越来越好!

想要下载混元39页论文的,在下面我的公众号后台回复:混元

我的AI技术团队,正在招募志同道合的小伙伴,欢迎加入:

8fc6cc3c8d11589bcbee4611ab737603.png

如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个⭐️,这样以后就不会错过我的AI教程。谢谢你看我的文章,我们下篇再见!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值