【论文阅读笔记】HunyuanVideo: A Systematic Framework For Large Video Generative Models-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43357695/article/details/144538568

HunyuanVideo: A Systematic Framework For Large Video Generative Models

前言
引言
Overview
数据预处理
- 数据过滤
- 数据注释
模型架构设计
模型加速
基础模型性能
应用
相关工作

前言

“弥合封闭源视频基础模型和开源视频基础模型之间的差距，以加快社区探索。”——混元基础模型团队

project：https://github.com/Tencent/HunyuanVideo/tree/main

不愧是大组，下游任务刷了个遍，也做了非常丰富的实验

引言

基于扩散的视频生成模型仍然相对不活跃。我们认为，这种停滞的主要原因之一是缺乏稳健的开源基础模型
在这里插入图片描述
由此本报告介绍了我们的开源基础视频生成模型 HunyuanVideo。该系统框架包括训练基础设施、数据管理、模型架构优化和模型训练。通过我们的实验，我们发现随机缩放一个简单的基于transformer的生成模型的训练数据、计算资源和模型参数，使用流匹配（flow matching）进行训练并不够有效。因此，我们探索了一种有效的缩放策略，可以在实现所需的模型性能的同时将计算资源需求减少多达 5 倍。通过这种最佳缩放方法和专用基础设施，我们成功地训练了一个包含 13 亿个参数的大型视频模型，在互联网规模的图像和视频上预训练它。经过专门的渐进式微调策略，HunyuanVideo 在视频生成的四个关键方面表现出色：视觉质量、运动动力学、视频-文本对齐和语义场景切割。我们对 HunyuanVideo 与领先的全局视频生成模型进行了全面比较，包括中国 Gen-3 和 Luma 1.6 和 3 个表现最佳的商业模型，使用了一组 60 人访问的超过 1,500 个具有代表性的文本提示。结果表明，HunyuanVideo 实现了最高的整体满意度，尤其是在运动动力学方面表现出色。

Overview

在这里插入图片描述

数据预处理

我们使用图像-视频联合训练策略。视频被精心划分为五个不同的组，而图像分为两组，每组都量身定制以适应各自训练过程的具体要求。
*我们的原始数据池最初包括跨越广泛领域的视频，包括人、动物、植物、风景、车辆、物体、建筑物和动画。**每个视频都是通过一组基本阈值获得的，包括最小持续时间要求。
此外，数据的一个子集是根据更严格的标准收集的，例如空间质量、遵守特定纵横比以及组成、颜色和曝光方面的专业标准。这些严格的标准确保我们的视频具有技术质量和审美吸引力。我们通过实验证明，结合高质量的数据有助于显着提高模型性能。

数据过滤

我们来自不同来源的原始数据表现出不同的持续时间和质量水平。

首先，我们利用PySceneDetect将原始视频分割成单镜头视频片段。
接下来，我们使用OpenCV中的拉普拉斯算子来识别清晰的帧，作为每个视频剪辑的起始帧。使用内部VideoCLIP模型，我们计算这些视频剪辑的嵌入。这些嵌入有两个目的：（i）我们根据嵌入的余弦相似度对相似的剪辑进行重复数据删除； (ii)我们应用 k-means 来获得 ∼10K 概念质心以进行概念重采样和平衡。
为了不断增强视频美学、运动和概念范围，我们实现了一个分层数据过滤管道来构建训练数据集，如图 4 所示。该管道包含各种过滤器，以帮助我们从我们接下来介绍的不同角度过滤数据。我们使用Dover从美学和技术角度评估视频片段的视觉美学。
此外，我们训练了一个模型来确定清晰和消除带有视觉模糊视频剪辑。
通过使用估计的光流预测视频的运动速度，我们过滤掉静态或慢动作的视频。
我们将PySceneDetect和Transnet v2的结果结合起来，得到场景边界信息。
我们利用内部 OCR 模型去除文本过多的视频片段，以及定位和裁剪字幕。
我们还开发了类似YOLOX的视觉模型来检测和删除一些闭塞或敏感信息，如水印、边界和标志。

为了评估这些过滤器的有效性，我们使用较小的 HunyuanVideo 执行简单的实验
在这里插入图片描述
这些数据集（除了最后一个微调数据集）是通过逐步改进上述过滤器的阈值来管理的。视频空间分辨率从256 × 256 × 65逐渐增加到720×1280 × 129

为了提高模型在最终阶段的性能，我们构建了一个包含约 1M 个样本的微调数据集。该数据集通过人工注释精心策划。注释者被分配了识别表现出高视觉美学和令人信服的内容运动的视频剪辑的任务。每个视频剪辑根据两个角度进行评估：（i）分解美学视图，包括颜色和和谐、照明、对象强调和空间布局； (ii) 分解的运动视图，包括运动速度、动作完整性和运动模糊。最后，我们的微调数据集由视觉上吸引人的视频剪辑组成，这些视频剪辑具有复杂的运动细节。我们还通过重用大多数过滤器（不包括与运动相关的过滤器）为图像建立了一个分层数据过滤管道。类似地，我们通过逐步增加应用于数十亿个图像-文本对的图像池的过滤阈值来构建两个图像训练数据集。第一个数据集包含数十亿个样本，用于文本到图像预训练的初始阶段。第二个数据集包含数亿个样本，用于文本到图像预训练的第二阶段。

数据注释

结构化字幕。如研究所示，字幕的精度和全面性在提高生成模型的提示跟随能力和输出质量方面起着至关重要的作用。以前的大多数工作都专注于提供简短的字幕或密集的字幕。然而，这些方法并非没有缺点，存在信息不完整、冗余话语不准确等问题。为了追求具有更高全面性、信息密度和准确性的标题，我们开发并实现了一个内部视觉语言模型（VLM），旨在为图像和视频生成结构化标题。这些以 JSON 格式的结构化字幕从不同的角度提供多维描述性信息，包括：
1）简短描述：捕捉场景的主要内容。
2)密集描述:详细介绍场景的内容，特别是包括与视觉内容集成的场景转换和相机运动，如相机遵循一些主题。
3) 背景：描述主题所在的环境。
4) 风格：表征视频的风格，例如纪录片、电影、现实或科幻。
5) 镜头类型：识别突出或强调特定视觉内容的视频镜头类型，例如航拍、特写镜头、中镜头或长镜头。
6)照明:描述视频的照明条件。
7) 大气：传达视频的大气，例如 cozy、时态或神秘。

此外，我们扩展了 JSON 结构，以合并额外的元数据派生元素，包括来自图像和视频元信息的源标签、质量标签和其他相关标签。通过实现精心设计的 dropout 机制以及排列和组合策略，我们通过为每个图像和视频组合这些多维描述来合成长度和模式多样化的字幕，旨在提高生成模型的泛化能力并防止过度拟合（应该指可以随机将一段长的caption组合为多组长度的 caption）。我们利用这个标题器为训练数据集中的所有图像和视频提供结构化标题。

相机运动类型。我们还训练了一个相机移动分类器，能够预测14种不同的相机移动类型，包括放大、放大、平移、平移、平移、向左平移、平移、向右倾斜、倾斜、向左倾斜、向右倾斜、左右、左右、左右、左右、静态镜头和手持镜头。摄像机移动类型的高置信度预测被集成到JSON格式的结构化字幕中，以实现生成模型的摄像机运动控制能力

模型架构设计

在这里插入图片描述

3D Variational Auto-encoder Design

我们训练一个3DVAE将像素空间视频和图像压缩成一个紧凑的潜在空间。

在这里插入图片描述
对于形状视频 (T + 1) × 3 × H × W ，我们的 3DVAE 将其压缩为形状为 (T ct + 1) × C × (H cs ) × (W cs ) 的潜在特征。在我们的实现中，ct = 4、cs = 8 和 C = 16。

training

与大多数以前的工作 [67, 11, 104 ] 相比，我们不依赖预训练的图像 VAE 进行参数初始化；相反，我们从头开始训练我们的模型。为了平衡视频和图像的重建质量，我们以4:1的比例混合视频和图像数据。除了常规使用的L1重建损失和KL损失Lkl外，我们还加入了感知损失Llpip和GAN对抗损失Ladv[22]来提高重建质量。

$Loss=L_1+0.1L_{lpips}+10^(-6)L_{kl}$

在训练期间，我们采用循环学习策略，从低分辨率短视频逐渐训练到高分辨率长视频。为了提高高运动视频的重建，我们从1 ~ 8范围内随机选择一个采样间隔，在视频片段中均匀地采样帧

inference

在单个 GPU 上编码和解码高分辨率长视频可能会导致内存不足 (OOM) 错误。为了解决这个问题，我们使用时空平铺策略，将输入视频沿空间和时间维度分割成重叠的瓦片。每个瓦片分别编码/解码，输出拼接在一起。对于重叠区域，我们利用线性组合进行混合。这种平铺策略允许我们在单个 GPU 上以任意分辨率和持续时间对视频进行编码/解码。我们观察到，在推理过程中直接使用平铺策略会导致可见的伪影，因为训练和推理之间的不一致。为了解决这个问题，我们引入了一个额外的微调阶段，其中在训练期间随机启用/禁用平铺策略。这确保了模型与平铺和非平铺策略兼容，保持训练和推理之间的一致性。

表 1 将我们的 VAE 与开源最先进的 VAE 进行了比较。在视频数据上，与其他视频 VAE 相比，我们的 VAE 显示出明显更高的 PSNR。在图像上，我们的性能超过了视频 VAE 和图像 VAE。图 7 显示了几种分辨率为 256 × 256 的情况。我们的 VAE 在文本、小人脸和复杂的纹理方面表现出显着的优势。
在这里插入图片描述

统一的图像和视频生成架构

HunyuanVideo 中的 Transformer 设计采用统一的全注意力机制：

首先，与划分时空注意相比，它表现出了优越的性能。
其次，它支持图像和视频的统一生成，简化了训练过程，提高了模型的可扩展性。
最后，它更有效地利用现有的llm相关的加速能力，提高了训练和推理效率。模型结构如图8所示。

使用内核大小为 kt × kh × kw 的 3D 卷积将这些潜在物修补并展开为长度为 T kt · H kh · W kw 的 1D 令牌序列。

LLM捕捉细粒度的语义信息，clip 捕捉全局文本特征。

遗留问题：Gate 是什么机制？

模型设计 为了有效整合文本和视觉信息，我们遵循[47]中引入的类似的“双流”混合模型设计策略来生成视频。在双流阶段，视频和文本令牌通过多个Transformer块独立处理，使每个模态能够在不受干扰的情况下学习自己的适当的调制机制。在单流阶段，我们将视频和文本标记连接起来，并将它们输入到后续的Transformer块中，以实现有效的多模态信息融合。这种设计捕获了视觉和语义信息之间的复杂交互，提高了整体模型性能。

位置嵌入 为了支持多分辨率、多方面比率和不同的持续时间生成，我们在每个 Transformer 块中使用旋转位置嵌入 (RoPE) [77]。RoPE 将旋转频率矩阵应用于嵌入，增强了模型捕获绝对位置和相对位置关系的能力，并展示了 LLM 中的一些外推能力。鉴于视频数据中时间维度的附加复杂性，我们将 RoPE 扩展到三个维度。具体来说，我们分别计算时间 (T)、高度 (H) 和宽度 (W) 坐标的旋转频率矩阵。然后，我们将查询和键的特征通道划分为三个段