腾讯版Sora开源，大模型继续狂飙。

算法channel

于 2024-12-11 10:26:10 发布

阅读量687

点赞数 9

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xo3ylAF9kGs/article/details/144413580

版权

你好，我是郭震

Sora震撼上线，大模型继续狂飙。

通过公布的一些短视频，来看Sora的视频生成效果。

为了更加容易在公众号展示，把视频尺寸压缩为原来的1/3，大家可以看看效果：

以上5个Sora生成视频，因Sora是闭源的，具体的技术细节，无从得知，只能通过公布的技术框架，了解到：

Sora 可能基于GPT-4 多模态版本为基础模型，引入扩展模型（如扩散模型或基于时序卷积网络的生成模块），以支持视频帧的生成与序列化，通过 Transformer 的时间嵌入机制对视频帧间的时序关系进行建模。

文本到视频的生成通过一个联合的嵌入空间实现，将文本和视频的语义统一对齐。初步生成低分辨率的视频帧序列，使用超分辨率网络提升视频帧质量（如 Real-ESRGAN 模块）。

可能采用扩散去噪模型进行多帧生成的平滑优化，保证连续性。

更多视频生成的技术细节，我们不妨从上周发布的腾讯版Sora来一探究竟，腾讯开源了视频生成的代码，部署在下面两个平台：

同时也发布了技术report：

还能通过PC在线免费体验：

腾讯视频模型称为HunyuanVideo，简称混元视频模型。

根据官方介绍，模型拥有130亿参数，是目前开源领域内参数规模最大的文本生成视频模型。

先看腾讯版Sora生成的几个视频，同样为了兼容公众号文章，视频尺寸压缩为1/3：

因视频已被压缩，抛开清晰度，你能发现：Sora生成的5条视频，腾讯混元生成的这5条视频，有什么区别吗？

衡量文生视频好坏，最重要的三个核心指标是什么？如下所示：

最重要的指标，物理一致性，也就是视频动作是否符合真实物理世界，如重力效果；

第二，场景一致性，帧间是否连续，如布局、光线；

第三，视频是否准确传达了输入文本的核心语义。

下面我亲自实践下，腾讯混元视频模型效果，进入网站，输入这些文字：

中国古代盛唐的江南豫章美景：落霞与孤鹜齐飞，秋水共长天一色

然后点击右下角的按钮，就进入视频生成阶段：

步骤可以说是非常简单，做到了一句话生成视频。提示预计5分钟，实际大概2分钟左右就出来下面视频：

为了展示在公众号里，同样尺寸压缩为1/3后展示：

根据腾讯混元视频模型技术Report，混元计算资源远远小于闭源的Sora模型：

腾讯混元视频模型，目前在开源里面得分最高：

混元模型架构如下：

模型在时空压缩的潜在空间中训练，该空间通过因果3D VAE压缩。

文本提示通过大语言模型编码，并作为条件使用。

以高斯噪声和条件为输入，模型生成输出潜变量，并通过3D VAE解码器解码为图像或视频。

3D VAE压缩组件是核心技术之一，其架构如下所示：

上图中间小块，即为压缩后隐式表达。

另一个核心是文本编码组件：如下图右侧所示，腾讯提出了预训练多模态编码方法：

下面详细介绍了MLLM优势，包括：对齐能力强，图片细节处理和复杂推理强，指令跟随能力更强：

训练阶段，模型不基于预训练，而是完全从零开始训。损失函数另外引入了感知损失和对抗损失。训练策略是课程学习策略，从低到高分辨率：

推理阶段主要challenge，单GPU内存会爆。处理方法：采用时空平铺策略，将输入视频在空间和时间维度上分割成重叠的平铺块。每个平铺块分别进行编码/解码，输出结果再拼接在一起：

关于混元视频模型的scaling laws，会在接下来研究：

论文给出了更多生成视频图形展示：

更多有趣的应用，姿势跟随对齐：

多姿势和表情对齐：

总结

腾讯混元视频模型，技术创新还是蛮多的，并且代码开源了，这会活跃社区，技术贡献会被进一步放大，期望越来越好！

想要下载混元39页论文的，在下面我的公众号后台回复：混元

我的AI技术团队，正在招募志同道合的小伙伴，欢迎加入：

如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个⭐️，这样以后就不会错过我的AI教程。谢谢你看我的文章，我们下篇再见！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。