AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声/语音/音效秒出,唇形精准到帧!

文章链接:https://arxiv.org/pdf/2508.00733
项目链接:https://ciyou2.github.io/AudioGen-Omni/

亮点直击

  • AudioGen-Omni 首个能够在灵活多模态条件下生成多样化音频类型(包括通用音频、语音和歌曲)的统一框架,并实现精确的视听对齐。

  • 轻量级模块将原始字素(grapheme)或音素(phoneme)序列映射到帧对齐的稠密表示,无需音素时长监督。它支持多语言输入,采用统一的 VoiceBPE 分词和基于 ConvNeXt 的细化。

  • 为实现跨模态时序共振,相位对齐各向异性位置注入(PAAPI)选择性地将旋转位置先验嵌入到时序结构化的模态(如视觉、音频及歌词和转录等对齐文本)中,从而增强表征间的细粒度同步性。

总结速览

解决的问题

  • 跨模态对齐不足:现有视频到音频生成方法在音频、语音和歌曲的同步性(如节奏、唇音同步)上表现不佳。

  • 任务局限性:现有模型通常仅支持单一任务(如仅语音、仅背景音乐),缺乏统一框架支持多种音频生成(如语音、歌曲、音效)。

  • 语义与声学多样性不足:文本或视频输入与生成音频的语义匹配度低,且声学表现(如音色、韵律)不够丰富。

  • 灵活性缺失:缺乏适应多模态输入(如视频+文本+音频)的灵活条件机制,难以处理缺失模态的情况。

提出的方案

  • 统一多模态扩散Transfomer(MMDiT)
    • 整合视频、音频、文本到共享语义空间,支持语音、歌曲、音效的联合生成。

    • 采用联合训练范式,利用大规模视频-文本-音频数据,增强跨模态关联。

  • 歌词-文本统一编码器
    • 将文字(grapheme)和音素(phoneme)编码为帧级稠密表示,适配语音和歌唱任务。

  • 相位对齐各向异性位置注入(PAAPI)
    • 选择性应用RoPE(旋转位置编码)到时序模态(如视频、音频),提升跨模态时序对齐精度。

  • 动态条件机制
    • 通过解冻所有模态+掩码缺失输入,避免文本冻结范式的语义限制,支持灵活的多模态条件生成。

应用的技术

  • 多模态扩散Transfomer(MMDiT):基于扩散模型和Transformer的生成架构。

  • AdaLN联合注意力机制:自适应层归一化(AdaLN)增强跨模态特征融合。

  • 轻量级歌词-文本编码器
    • 多语言统一分词 + ConvNeXt 细化,生成帧对齐表示。

  • 相位对齐各向异性位置注入(PAAPI)
    • 改进RoPE,仅在时序模态(如视频、音频)上应用位置编码,优化同步性。

  • 掩码多模态训练:通过随机掩码输入模态,提升模型鲁棒性和泛化能力。

达到的效果

  • 高质量生成
    • 支持高保真音频、语音、歌曲生成,语义与输入视频/文本高度匹配。

    • 在Text-to-Audio/Speech/Song任务上达到SOTA性能。

  • 精准同步
    • 通过PAAPI和联合训练,实现音频与视频的唇音同步、节奏对齐。

  • 高效与通用性
    • 推理速度:1.91秒生成8秒音频,显著优于同类模型。

    • 单一模型支持多种任务(音效、语音、歌曲),无需任务特定设计。

  • 跨模态适应性
    • 可处理缺失模态输入(如仅视频或仅文本),保持生成稳定性。

方法

为在端到端框架中根据可选的视频和/或文本输入生成高质量音频、语音、音乐或歌曲,本文提出了一种称为 AudioGen-Omni 的多模态架构。该方法的主要目标是有效建模视频、多样化音频类型和文本模态之间的交互。为实现这一目标,本文采用来自 SD3的 MM-DiT 块设计,并集成了一系列受 FLUX启发的音频专用单模态块。这种多模态架构能够自适应地关注不同的输入模态,从而促进在视听和音频-文本数据集上的联合训练。

自动化数据预处理流程

AudioGen-Omni 的有效性依赖于一个大规模、多样化的多模态数据集,涵盖文本到音频/歌曲/语音、视频到音频/语音/歌曲以及文本和视频联合到音频/语音/语音/歌曲的配对。这一全面数据集为模型训练提供了丰富且灵活的条件信号。

描述性字幕:利用 Qwen-omni,自动生成详细的文本描述,不仅捕捉音频内容的声学特征,还涵盖其主导情绪和情感动态。

语音转录:使用 Whisper精确转录语音片段,确保跨多种语言和声学环境的准确音素和语义表示。

歌词:对于音乐内容,通过 FunASR(一种以中文为核心的强大 ASR 工具包)提取并转录歌词,提供精确的帧级时间戳和标点符号,以促进后续对齐和生成过程。

条件编码器

歌词-转录模块:与依赖预估计音素时长的非自回归 TTS 系统不同,本文提出了一种轻量级、无需时长的歌词-转录模块,其灵感来自 F5-TTS和 Ace-step。该模块直接将原始字素或音素序列映射为帧对齐的稠密表示。非罗马脚本首先转换为音素,随后进行统一的多语言 VoiceBPE 分词。可学习的 768 维嵌入被填充到帧预算中,并在填充位置进行掩码,通过最多 4,000 个位置的正弦绝对位置编码增强,并通过尊重填充掩码的 ConvNeXt-V2 块进行细化。

文本编码器:采用基于 Colossal Clean Crawled Corpus (C4) 预训练的 T5-Base作为文本特征提取器。通过将提示、描述和查询统一在文本到文本框架下,T5 生成鲁棒的 768 维潜在嵌入,作为下游多模态对齐和生成的语义锚点。其强大的泛化能力减少了对任务特定调优的需求。

视觉编码器:视觉特征使用 MetaCLIP的 ViT-bigG-14-QuickGELU 提取,该模型在大规模图像-文本数据集上预训练,生成与文本表示对齐的领域鲁棒、细粒度嵌入。为确保时序一致性,我们集成了 Synchformer,这是一种基于 Transformer 的视听同步模型,利用嘴唇运动和音素时序等稀疏线索,在无需密集监督的情况下实现精确对齐,适用于视频生成、配音和语音驱动动画等应用。

音频编码器:本文的音频编码器基于 Kling-Foley的潜在编解码架构,这是 VQ-CTAP的增强变体,具有更高的重建保真度。该编解码器采用基于梅尔频谱的变分自编码器(Mel-VAE),包括编码器、解码器和判别器。以 44.1 kHz 采样的输入波形被编码为 43 Hz 的潜在嵌入,实现 1024 倍的时序下采样因子。通过建模连续潜在分布,该 VAE 相比离散编码器具有更高的表示能力和重建质量,同时保持压缩效率。

输入策略与鲁棒性

为提高模型对多样化输入条件的鲁棒性和适应性,采用以下策略:

多模态对齐:通过解冻所有模态并掩码缺失输入,模型避免了文本冻结范式固有的语义锁定,使描述性字幕、转录、歌词和视频共同形成统一的潜在空间。共享投影层和联合注意力机制促进了无限制的梯度流动,使低资源模态能够利用更丰富模态的语义信息。这产生了一种与模态无关的潜在表示,允许在推理期间使用任意条件输入子集而无需重新训练。此外,24 FPS 的视觉特征确保了帧级视听同步,无需计算密集的测试时对齐。

可变长度训练:为支持具有细粒度时序控制的可变长度视听生成,原始片段的开始时间和持续时间被离散化为可学习的每秒嵌入。这些时序嵌入与全局文本和视觉特征拼接,通过浅层 MLP 与扩散时间步嵌入融合,并通过自适应层归一化融入每个 Transformer 层,提供时序感知的全局条件。在训练期间,基于长度的掩码将填充帧排除在损失计算之外,确保准确的梯度更新。

模型架构

联合注意力:受 Flux和 SD3启发,本文实现了一种联合注意力机制以促进跨模态信息交换。具体而言,来自文本、音频和视觉模态的查询、键和值表示被拼接,并通过缩放点积注意力在组合序列上进行处理。这种统一注意力在单一操作中实现了跨模态的集成推理。输出随后根据原始模态结构进行分割,保留模态特定特征的同时,用其他模态的上下文信息丰富每个模态。

全局条件

本文通过聚合傅里叶编码的扩散时间步、音频时长嵌入以及平均池化的视觉和文本特征,构建了一个在所有Transformer层之间共享的全局条件向量。相比之下,歌词/转录表示提供了局部化的时序细节,并沿时序维度与 Flan-T5 嵌入拼接,作为注意力键的一部分。根据 MMAudio 的经验,我们注意到尽管跨模态注意力促进了视觉和音频流之间的交互,但固有的软聚合可能会损害对齐精度。为提高同步性,本文整合了由 Synchformer 编码器提取的高帧率(24 FPS)视觉特征,这些特征与音频事件强相关。这些特征被上采样并集成到全局条件向量中,生成帧对齐的条件信号。全局和对齐特征均通过自适应层归一化(AdaLN)层中的尺度和偏置参数调制模型。

条件流匹配

在训练期间,本文采用条件流匹配。给定条件 (如文本或视频嵌入),从标准正态分布中采样噪声向量 。模型学习一个速度场 ,训练目标是最小化预测速度与沿线性插值路径的真实流速度之间的差异,形式化为:

其中 ,且 。这里 是积分时间, 是条件(如视频和/或文本), 是噪声与数据之间的线性插值点。在推理时,我们设 并使用欧拉积分将噪声 映射到最终音频潜在代码。

实验

训练细节
本文训练了一个能够基于多模态输入生成10秒音频、语音或歌曲输出的模型。该模型共有15亿参数,DiT模型包含24层。训练过程使用InverseLR优化器,基础学习率为,权重衰减为0.001,并采用包含指数预热和衰减阶段的学习率调度器。为提高推理稳定性,维护模型权重的指数移动平均。训练在8组NVIDIA H800 GPU(每组80GB内存)上进行,总计需要约3000 GPU小时,批量大小设为128。推理时使用25采样步数,采用分类器无关引导(guidance scale=4.5)。

数据集
使用VGGSound、Pandas70M(约4100小时)和InterVid(约1900小时)作为音频-文本-视觉训练数据集。音频-文本训练使用AudioCaps(约128小时,人工标注)、Clotho(约31小时,人工标注)、LibriTTS(约585小时)、LJ Speech(约24小时)和WavCaps(约7600小时,元数据自动标注)。歌曲-歌词训练数据集来自网络资源,总计约1000小时。

评估指标

本文通过分布相似性、音频保真度、语义连贯性和时序对齐四个标准评估音频生成(表1)。语音专项评估采用UTMOS、DNS-MOS和词错误率(WER)衡量可懂度(表2)。在LRS3测试集上计算合成语音与目标语音的说话人嵌入余弦相似度(SECS)以评估说话人一致性(表3)。

主要结果

音频生成

分布相似性
为评估生成音频分布与真实音频的接近程度,本文使用多个预训练模型提取特征计算弗雷歇距离(FD)和KL散度。FD采用PaSST()和PANNs()作为嵌入模型。注意PaSST工作于32kHz而PANNs为16kHz,两者均生成全局表示。

KL散度的实现,通过分类器计算生成样本与真实样本的类别分布差异。

音频保真度
采用Inception Score评估无需真实音频的感知质量。根据Viertola et al.(2025),使用PANNs作为分类器计算IS。

语义连贯性
使用ImageBind提取视觉和音频嵌入,计算模态间平均余弦相似度(IB-score),方法遵循Viertola et al.(2025)。

时序对齐
为评估视听同步性,采用Synchformer预测的DeSync分数(估计音视频时序错位秒数)。与Viertola et al.(2025)使用2.56秒片段(短于Synchformer的4.8秒上下文窗口)不同,我们采用8秒片段,提取首尾各4.8秒片段并平均DeSync值以获得更鲁棒的同步估计。

语音生成

语音客观评估
使用两种广泛采用的感知音频质量评估模型UTMOS和DNSMOS评估生成语音质量。同时计算F0均方根误差()衡量音高准确性,以及词错误率(WER)评估语音可懂度。WER通过Whisper 3.0转录生成语音并与真实文本比对得出。

本文的模型在LRS3和LRS2数据集上均优于现有VTS系统,显著缩小了视频与语音的模态差距。值得注意的是,本方法在UTMOS和DNSMOS分数上甚至超越真实音频,这归因于生成的纯净语音不含真实录音中的背景噪声。

说话人相似性分析
进一步评估视频驱动的说话人嵌入是否能有效捕捉说话人身份。为此,在LRS3测试集上计算合成语音与目标语音的说话人嵌入余弦相似度(SECS)。说话人嵌入使用两种模型提取:标准说话人验证模型GE2E和专为感知语音相似度设计的VoxSim。

如上面表3所示,本方法在两种嵌入模型上均取得最高SECS分数,表明相较于现有方法,我们的视频驱动嵌入能更准确地保留说话人特征。

梅尔频谱可视化
为与基线方法进行直观对比,将生成语音的梅尔频谱与真实音频进行可视化(下图2)。结果显示,本模型生成的梅尔频谱与真实频谱高度吻合,精确捕捉了细微声学细节和谐波结构。

此外,通过利用视觉特征增强韵律表现,本方法在基频()上呈现出与面部表情突变对应的动态变化。

结论

AudioGen-Omni——一种统一的多模态扩散Transfomer,可生成与输入视频同步的高保真音频、语音及歌曲。通过利用大规模视频-文本-音频训练数据,结合统一的歌词-转录编码器和相位对齐位置注入的新型联合注意力机制,确保精确的跨模态对齐。通过解冻所有模态并掩码缺失输入,AudioGen-Omni克服了文本冻结模型的限制,实现灵活的条件控制和强泛化能力。该方法在多项音频生成任务上达到最先进性能,并保持高效推理,为包括视频生成在内的未来扩展奠定基础。

参考文献

[1]AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值