文章链接:https://arxiv.org/pdf/2504.02436
项目链接:https://skyworkai.github.io/skyreels-a2.github.io
代码链接:https://github.com/SkyworkAI/SkyReels-A2
demo:https://www.skyreels.ai/home
亮点直击
提出了SkyReels-A2,一种基于视频扩散模型的元素到视频(E2V)框架,旨在保持来自多张参考图像(角色、物体和背景)的保真度,同时通过文本指令实现精确控制。
引入了一个精心策划的高质量文本-参考-视频三元组数据集,并开发了A2-Bench,以促进对元素到视频任务的全面自动化评估。
大量实验表明,SkyReels-A2能够生成高质量、可编辑且时序一致的多视觉元素视频,在定性和定量分析中均优于先进的闭源商业模型。已开源。
总结速览
解决的问题
-
元素保真问题:现有视频生成模型难以在生成过程中严格保持多参考元素(如角色、物体、背景)的外观一致性。
-
场景协调性:需解决多元素组合时的全局协调性(如自然交互、合理构图),避免生成内容割裂或失真。
-
输出自然性:传统方法(如I2V)易依赖初始帧的“复制粘贴”,导致动态效果生硬;T2V则因随机性难以控制具体元素。
-
缺乏评估基准:当前缺少针对多元素视频生成(E2V)任务的系统化评估标准。
提出的方案
-
数据构建:设计文本-参考图像-视频三元组数据集,通过跨视频采样参考图像避免简单复制,并重新标注视频描述以聚焦元素外观与动作。
-
联合嵌入模型:提出新颖的图像-文本联合嵌入模型,在生成过程中注入多元素表征,平衡元素特异性、全局一致性与文本对齐。
-
推理优化:优化推理流程以提升生成速度和输出稳定性(如训练加速技术)。
-
评估基准(A2 Bench):构建首个针对E2V任务的评测基准,量化模型性能并与人类主观评价强相关。
应用的技术
-
扩散模型框架:基于3D注意力机制的扩散Transformer架构,支持时序一致性生成。
-
多模态表征学习:通过联合图像-文本嵌入实现跨模态语义与空间对齐。
-
数据增强策略:跨视频采样参考图像,增强模型泛化能力。
-
训练加速技术:采用无需额外训练的推理优化方法(如减少采样步数)。
达到的效果
-
高保真与可控性:生成视频能严格遵循多参考图像的外观,同时灵活响应文本提示(如角色动作、场景变换)。
-
多样性与质量:输出视频兼具多样性(覆盖人物、动物、场景等)和高质量(自然动态、合理构图)。
-
商业级性能:首个开源商业级E2V模型,性能优于闭源商业模型(如竞品)。
-
应用潜力:推动AI戏剧、虚拟电商等创意领域发展,拓展可控视频生成的边界。
方法
给定一组N张输入参考图像,记为,描述图像中的N−1个独立主体和背景,本文的目标是生成由这些视觉元素组成且遵循文本提示的高质量自然视频。首先说明SkyReels-A2的合成视频架构。然后分别描述数据集构建流程以及评估A2-Bench。
架构
整体架构如下图2所示。给定一组N张参考合成图像和背景图像,记为,目标是生成高质量视频,在保留每个参考对象和背景身份的同时,遵循具有灵活布局的文本提示T。本文的方法利用先进的视频扩散Transformer架构,仅进行最小的结构修改以确保广泛的适用性。本文对参考图像中的每个主体(除背景参考图像外)进行白色背景分割以避免额外噪声。每个输入参考主体通过双流结构进行跨模态投影:第一流使用语义图像编码器提取全局和语义特征的视觉嵌入;第二流使用原始VAE获取空间和局部细节特征。
语义编码器采用CLIP图像编码器实现,从其倒数第二层提取基于网格的特征。随后,投影模块将这些特征转换为与视频序列查询维度对齐的图像查询。所有参考图像生成的图像标记被拼接,并作为交叉注意力层中的键和值使用,这些层被集成到每个文本提示交叉注意力块之后。对于空间分支,参考图像首先沿帧维度拼接并零填充以匹配原始帧数。接着应用标准3D VAE提取视频隐变量,随后将其与噪声隐变量沿通道维度拼接,再通过补丁嵌入模块。
训练与推理
训练目标。给定合成提示和输入文本提示T,首先在原始图像中分割无背景的主体,训练SkyReels-A2模型在隐空间重建目标视频。本文的训练目标遵循标准扩散MSE损失,如公式1所示。训练期间,仅优化以下神经模块:交叉注意力、补丁嵌入、图像条件嵌入器,其余部分保持冻结。
推理加速
本文采用UniPC多步调度进行推理采样。同时,还考虑了一些高效先进的加速策略以提升实际应用性能。通常,在扩散模型推理过程中跨多个GPU并行处理神经网络激活是关键加速策略,尤其是当我们的模型扩展到140亿参数时,单步采样速度成为瓶颈。
数据集构建
数据构建在实现多主体一致可控视频生成中起着关键作用。与传统文本到视频(T2V)或图像到视频(I2V)任务不同,我们的框架需要为不同主体(如人物、物体和场景)提供额外的参考图像。为解决这一挑战,本文设计了一个全面的训练数据pipeline,能够生成高质量的视频-字幕-多参考三元组,如下图3所示。
本文的pipeline首先从大规模视频数据集的收集开始。每个视频根据内容连贯性被分割成片段。随后采用内部的多专家视频字幕生成模型,为这些片段生成整体性和结构化的字幕。结构化字幕包含细粒度细节,包括独立主体(如人物、服装和物体)、背景信息,以及动态属性(如面部表情、动作和运动轨迹)。
然后构建参考图像。对于每个视频片段,首先应用通用检测模型定位人物和物体。对于人物主体,进一步使用人脸检测器和人体解析模型提取面部特征和服饰细节。为了将检测到的主体与结构化字幕对齐,本文利用CLIP模型将字幕中的文本描述与视觉实体匹配。
为了减轻生成输出中的“复制粘贴”效应,我们引入了额外的基于相似性的过滤步骤。具体而言,我们使用人脸相似性模型(针对人物)和基于CLIP的相似性模型(针对物体)计算检测主体的跨片段相似性。这使得我们能够为同一主体选择不同片段中的多样化参考图像。对于背景参考构建,识别背景覆盖范围最大的帧,通过裁剪移除前景物体,并保留纯净的背景图像。
最终,整理了一个包含约200万高质量视频-参考-提示三元组的数据集用于训练。
A2-Bench评估基准
现有的视频生成评估基准VBench和VBench++通过精心设计的评估套件和多维评价标准,为文本到视频和图像到视频任务建立了严格的评估框架。然而,针对下游视频生成任务——元素到视频(E2V),目前仍缺乏全面的评估基准。为了全面评估E2V任务在不同场景下的表现,本文提出了自动化、全面且符合人类评价标准的A2-Bench,为合成视频生成模型提供跨多个维度的系统评估框架,确保性能测量的严谨性和可靠性。
从多种场景中收集了150张参考图像作为E2V任务的元素,包括50个不同的人物身份、12个类别的50个不同物体以及50个独特的背景。为构建基准数据集,随机将多个元素(人物、物体和背景)组合成50组不同的输入组合,随后使用大语言模型(LLM)生成相应的文本提示以促进数据集创建。需要特别说明的是,已严格确保训练视频与构建的A2-Bench之间不存在任何重叠。
A2-Bench的自动化指标包含三个核心维度:合成一致性、视觉质量和提示跟随性,通过八个细粒度指标进行评估。
合成一致性:作为评估E2V任务中视频生成元素一致性的核心指标
-
人物ID一致性:用于评估人物的一致性,采用直接评估方法。检测到人脸后,使用人脸识别模型提取特征并计算余弦相似度
-
物体一致性:评估非人物物体的一致性,使用Grounded-SAM分割视频中的物体部分,并计算帧级CLIP特征间的相似度
-
背景一致性:衡量生成视频场景与参考背景图像的相似度。通过检测并分割主体、遮蔽主体后,计算帧级CLIP特征与参考背景图像的相似度
视觉质量:为评估生成视频的视觉质量,综合了图像质量、美学质量、运动平滑度和动态程度等指标。这些指标共同捕捉生成内容的时间连贯性和视觉吸引力,确保对视频质量的全面评估。
提示跟随性:利用ViCLIP计算文本描述与视频内容之间的余弦相似度得分,直接衡量文本-视频对齐程度。该方法能有效评估文本输入与相应视觉表征之间的语义一致性。
综合评分:本文结合人类反馈对合成一致性、视觉质量和提示跟随性进行整体评估,认识到每个维度对用户偏好的贡献程度不同,而非简单取平均值。
用户偏好研究:针对元素到视频任务,考虑到自动元素检测和匹配的高错误率,本文开展了用户偏好研究来评估视觉质量和元素保真度,作为自动化评估的补充。本文使用50个测试样本,向多名参与者展示条件图像、提示文本以及多个模型(包括Keling、Vidu、Pika和我们的SkyReels-A2)的生成结果。每个样本同时展示四种结果,参与者根据不同评估标准进行1-5分的评分。我们的用户研究方法能更直观地比较各模型在视觉质量和元素细节方面的性能差异。
用户偏好研究采用了高度细化的评估框架,包含10个具体标准,如指令跟随性、面部一致性、空间合理性和主体连贯性等。每个样本都基于这些细粒度维度进行人工评分,确保对模型性能更精准的评估。
实验
实验设置
实现细节:SkyReels-A2基于DiT架构的视频生成基础模型进行微调。本评估不包括T2V和I2V预训练阶段,本文专注于评估元素到视频生成能力,包括人物、物体和背景的相似性。训练时,以30%和10%的概率分别丢弃视频字幕和参考条件(用于分类器无关指导)。当参考图像与视频比例不符时使用白色图像填充,训练视频片段包含81帧(对应15FPS下6秒时长)。训练采用Adam优化器,学习率设为,全局批大小为256。推理时使用50步采样,CFG尺度设为5。
基线方法:对于元素到视频任务,当前SoTA方法均为闭源商业工具。因此本文评估比较了Pika、Vidu和Keling产品的最新能力。
定量分析结果
如下表1所示视频质量评估结果表明:在视觉一致性方面,SkyReels-A2在背景一致性指标上表现稍弱,但在物体一致性和角色一致性等指标上表现优异。视频质量评估的右半部分显示,SkyReels-A2在动态程度和图像质量等综合指标上保持领先优势。
针对元素到视频任务存在的目标检测误差问题,我们开展了用户调研(1-5分制评分,分数越高表示感知质量越好)。下图5显示,本模型在多参考图像生成任务中的表现与商业解决方案相当,在服饰一致性和人体运动平滑度等指标上更具优势。
定性分析结果
下图6展示了典型案例的四帧对比结果(含首尾帧)。下图7进一步呈现了SkyReels-A2的多主体一致性生成效果。实验发现:Vidu与本模型在主体一致性、视觉效果和文本响应方面表现均衡;Pika在主体一致性上表现欠佳且运动幅度较小;Keling存在明显的镜像运动效应(远近视距交替)。我们认为这是数据分布差异所致——本模型采用了更多电影级数据源进行训练。总体而言,本模型在各维度表现均衡,在主体一致性和运动自然度方面优势显著。
消融实验
本节详细分析了SkyReels-A2不同结构设计的影响。仅对消融部分进行改动,同时固定残差模型与训练范式(包括训练数据、步数、随机种子、学习率等参数)以控制变量。
空间特征组合方式
如何整合空间特征值得深入探讨。首先,针对给定的多参考图像,尝试了以下方案:(i) 在原始像素空间直接拼接后输入3D VAE。考虑到时间维度的压缩,我们在像素空间按空间维度压缩比进行了复制(例如Wan实验中重复4次),以确保图像经3D VAE压缩后信息不丢失;(ii) 各图像独立通过3D VAE编码后,在隐空间进行特征拼接;(iii) 取消时间维度复制,这会导致像素空间出现更多填充tokens。如表2第一部分所示,取消复制会削弱图像信息完整性,导致构图一致性指标显著下降。参考生成样本可见,未进行帧复制的实验出现了主体丢失率上升的现象。同时我们发现,隐空间拼接可能导致参考图像间交互作用缺失,进而引发轻微性能退化。
可训练参数集设置
一般而言,模型训练参数越多,对原始能力的损伤越大且数据需求越高。基于相同规模的训练数据,我们对比了不同可训练参数策略:(i) 仅隔层训练交叉注意力模块参数;(ii) 全量训练所有交叉注意力层;(iii) 微调整个视频扩散模型。需说明,图像投影层与块嵌入层始终作为可训练部分。表2第二部分结果显示,虽然隔层训练能降低内存需求,但会导致一致性表现显著下降。而全模型微调虽能提升画质并使生成视频更自然,但综合考虑性能与数据规模的平衡,全量训练交叉注意力层是最优方案。
训练数据混合比例
本文进一步分析了数据混合对模型性能的影响。现有研究认为单主体数据有助于定制化任务中的表征学习。本实验中,固定多主体数据量,逐步增加单主体数据规模,将单参考与多参考图像比例α设置为1:1、2:1及全多主体数据。上表2第三部分结果显示:令人意外的是,增加单主体数据并未提升模型在多样化构图场景中的表现,因此最终未采用混合数据训练。我们推测这与监督微调类似——适量高质量"文本-参考-视频"三元组数据能在保持生成流畅性的前提下,更好激发模型可控性。
推理加速与超参数影响
考虑到训练阶段时间步长设为1000,而推理通常采用30-50步,需从1000步中采样。控制超参数flow shift的加权调度将影响推理过程。选取最优模型测试{1,3,5,8,12}取值区间,发现flow shift值越大,早期采样步数越多,空间结构越合理,但图像细节会逐步劣化。权衡运动质量与视觉效果后,我们默认采用取值8。
应用场景
作为视频生成模型的重要应用方向,基于SkyReels-A2分析了其在音乐视频创作和虚拟电商领域的潜力:
-
音乐视频创作:给定音乐片段后,可选取乐器(如吉他)并自由设计场景(见图7倒数第三行),生成具有艺术连贯性的创意序列
-
虚拟电商:通过将产品(如iPhone)与名人形象植入目标场景(见图7倒数第二行),配合定制语音解说,有效提升消费者购买意愿
结论
本文推出SkyReels-A2——一个专为多视觉参考图像驱动的元素到视频生成而开发的框架。该框架基于现有视频基础模型,从语义与空间双重视角设计了文本-图像联合注入方法,能有效学习跨模态数据形态的融合。实证结果表明,SkyReels-A2不仅能生成高质量、多样化的组合合成内容,更具备强大的可编辑性与身份特征保真度。我们期待该方法能为可控视频领域树立新基准,为后续研究提供可复现、可扩展且可优化的技术框架。
参考文献
[1] SkyReels-A2: Compose Anything in Video Diffusion Transformers