
知识蒸馏
文章平均质量分 95
顾道长生'
时人不识凌云木,直待凌云始道高。
展开
-
(Arxiv-2025)Magic 1-For-1:在一分钟内生成一分钟视频剪辑
在本技术报告中,我们提出了 Magic 1-For-1(Magic141),这是一种在内存消耗和推理延迟方面经过优化的高效视频生成模型。其核心思想很简单:将文本到视频的生成任务分解为两个更容易的子任务,即文本到图像生成和图像到视频生成,从而实现扩散步蒸馏。我们验证了,在相同的优化算法下,相较于文本到视频任务,图像到视频任务确实更容易收敛。我们还探索了一系列优化技巧,从三个方面降低训练图像到视频(I2V)模型的计算成本:1)通过多模态先验条件注入来加速模型收敛;2)通过应用对抗性步蒸馏来加速推理延迟;原创 2025-04-01 10:56:00 · 753 阅读 · 0 评论 -
(Arxiv-2025)Magic 1-For-1:在一分钟内生成一分钟视频剪辑
在本技术报告中,我们提出了 Magic 1-For-1(Magic141),这是一种在内存消耗和推理延迟方面经过优化的高效视频生成模型。其核心思想很简单:将文本到视频的生成任务分解为两个更容易的子任务,即文本到图像生成和图像到视频生成,从而实现扩散步蒸馏。我们验证了,在相同的优化算法下,相较于文本到视频任务,图像到视频任务确实更容易收敛。我们还探索了一系列优化技巧,从三个方面降低训练图像到视频(I2V)模型的计算成本:1)通过多模态先验条件注入来加速模型收敛;2)通过应用对抗性步蒸馏来加速推理延迟;原创 2025-03-24 17:13:12 · 801 阅读 · 0 评论 -
(Arxiv-2025)MagicDistillation:用于大规模人像少步合成的弱到强视频蒸馏
对开源大规模视频扩散模型(VDMs)进行微调以适应肖像视频合成任务,在多个维度上都能显著提升,例如视觉质量和面部运动的自然动态。尽管这些方法已取得进展,但如何实现逐步蒸馏(step distillation)并减少大规模VDMs所带来的大量计算开销仍未被深入探索。为填补这一空白,本文提出了弱到强的视频蒸馏方法(Weak-to-Strong Video Distillation,W2SVD),以缓解训练过程中的显存不足问题和在原始DMD中观察到的训练崩溃问题。原创 2025-03-24 16:20:49 · 994 阅读 · 0 评论 -
(NIPS-2024)奖励足以快速生成照片般逼真的文本到图像
对齐生成图像与复杂文本提示和人类偏好是人工智能生成内容(AIGC)中的核心挑战。随着基于奖励增强的扩散蒸馏(reward-enhanced diffusion distillation)成为提升文本到图像模型可控性和逼真度的有前途方法,我们识别出一个基本的范式转变:当条件变得更加具体且奖励信号更强时,奖励本身成为生成的主导力量。相比之下,扩散损失(diffusion losses)仅仅是一种代价高昂的正则化形式。为了彻底验证我们的假设,我们提出R0,一种基于正则化奖励最大化。原创 2025-03-19 17:12:50 · 637 阅读 · 0 评论 -
(Arxiv-2025)SNOOPI:具有适当引导的超级增强单步扩散蒸馏
近期的研究表明,在将多步文本到图像扩散模型蒸馏为单步模型的过程中,取得了令人鼓舞的成果。当前最先进的蒸馏技术,例如 SwiftBrushv2(SBv2),甚至能够在有限资源下超越教师模型的性能。然而,我们的研究发现,现有方法在处理不同扩散模型架构时存在不稳定性,主要原因是在变分得分蒸馏(Variational Score Distillation, VSD)损失中使用了固定的引导尺度。原创 2025-02-26 11:09:59 · 1008 阅读 · 0 评论 -
(Arxiv 2025)一步扩散模型与 $f$-散度分布匹配
从扩散模型中采样涉及一个缓慢的迭代过程,这阻碍了其在实际应用中的部署,尤其是在交互式应用中。为了加速生成速度,近年来的方法通过变分评分蒸馏(variational score distillation)将多步扩散模型蒸馏到单步学生生成器中,从而使得学生生成的样本分布匹配教师模型的分布。然而,这些方法使用逆 Kullback-Leibler(KL)散度进行分布匹配,而这种方式已知具有模式塌陷的倾向。在本文中,我们提出了一种基于fff-散度最小化的新框架,称为 fff-distill,它能够涵盖不同的散度,并原创 2025-02-25 14:41:20 · 890 阅读 · 0 评论 -
(ICML-2024)得分一致性蒸馏:指数加速预训练扩散模型的一步生成蒸馏
我们提出了 Score Identity Distillation (SiD),这是一种创新的无数据蒸馏方法,可以将预训练的扩散模型的生成能力蒸馏到单步生成器中。SiD 不仅在蒸馏过程中实现了弗雷谢初始距离(FID)的指数级快速下降,而且在某些情况下甚至能接近或超越原始教师扩散模型的 FID 性能。我们通过将前向扩散过程重新表述为半隐式分布,利用三个与得分相关的恒等式,设计了一种创新的损失机制。该机制通过使用生成器自身合成的图像进行训练,实现了快速的 FID 下降,消除了对真实数据或基于反向扩散的生成的依原创 2025-02-16 15:46:37 · 1155 阅读 · 0 评论 -
(ICLR-2025)你只采样一次:通过自协作扩散 GAN 驯服一步文本到图像合成
近年来,一些研究尝试结合扩散模型(Diffusion Models, DMs)和生成对抗网络(Generative Adversarial Networks, GANs),以降低扩散模型中迭代去噪推理的计算成本。然而,这一方向的现有方法通常存在训练不稳定、模式崩溃或一步生成的学习效率较低等问题。为了解决这些问题,我们提出YOSO,这是一种全新的生成模型,专为快速、可扩展且高保真度的一步图像生成设计,同时具有高训练稳定性和模式覆盖能力。具体而言,我们通过去噪生成器自身平滑对抗散度,从而实现自协作学习。原创 2025-02-14 10:20:54 · 1280 阅读 · 0 评论 -
(NIPS-2024)改进的分布匹配蒸馏以快速图像合成
最近的研究表明,通过蒸馏昂贵的扩散模型,可以生成高效的单步生成器。其中,分布匹配蒸馏(Distribution Matching Distillation,DMD)能够生成在分布上与教师模型匹配的单步生成器,即蒸馏过程并不强制与教师模型的采样轨迹一一对应。然而,为了确保实际训练的稳定性,DMD 需要额外的回归损失,该损失是通过教师模型使用确定性采样器进行多步采样所生成的大量噪声-图像对计算得到的。这不仅对大规模文本到图像合成计算代价高昂,而且还限制了学生模型的质量,使其过于依赖教师模型的原始采样路径。原创 2025-02-10 13:21:49 · 684 阅读 · 0 评论 -
(CVPR-2024)一步扩散,分布匹配蒸馏
扩散模型可以生成高质量图像,但通常需要数十次前向传播。我们提出了分布匹配蒸馏(Distribution Matching Distillation,DMD)方法,这是一种将扩散模型转换为一步图像生成器的过程,同时尽可能减少对图像质量的影响。我们强制一步图像生成器在分布层面上匹配扩散模型,通过最小化近似 KL 散度,其梯度可以表示为两个得分函数之差,一个来自目标分布,另一个来自我们的单步生成器所产生的合成分布。这些得分函数由两个分别在每个分布上单独训练的扩散模型参数化。原创 2025-02-09 17:09:35 · 919 阅读 · 0 评论 -
(ICLR=2025)生成的表征对齐:训练扩散Transformer比你想象的更简单
最近的研究表明,扩散模型中的去噪过程能够在模型内部产生有意义的(判别性)表示,尽管这些表示的质量仍然落后于通过最近的自监督学习方法学习的表示。我们认为,训练大规模扩散模型以进行生成的主要瓶颈之一在于如何有效地学习这些表示。此外,通过引入高质量的外部视觉表示,而不是仅依赖扩散模型独立学习这些表示,训练可以变得更加容易。我们通过引入一种简单的正则化方法——表示对齐(REPA),来研究这一点,该方法将去噪网络中噪声输入隐藏状态的投影与从外部预训练视觉编码器获得的干净图像表示对齐。原创 2025-02-08 22:01:11 · 1367 阅读 · 0 评论 -
(Arxiv-2023)HiPA: 通过高频增强自适应实现一步文本到图像扩散模型
扩散模型已彻底改变了文本到图像的生成,但是它们的现实应用程序受到数百个扩散步骤所需的大量时间的阻碍。尽管已经提出了渐进式蒸馏以加快扩散采样的加快,但它仍然是一步生成的短缺,因此需要训练多个学生模型,这是高度参数性的遗产性且耗时。为了克服这些局限性,我们引入了高频增强适应性(HIPA),这是一种启用访问文本到图像扩散的参数有效方法。HIPA基于一个洞察,即高频信息至关重要,但在一步扩散中高度缺乏,重点是训练一步,低秩的适配器,以特别增强了高级扩散模型的代表性不足的高频能力。原创 2025-02-08 20:43:40 · 1010 阅读 · 0 评论 -
(NIPS-2024)Hyper-SD:有效图像合成的轨迹分割一致性模型
最近,已经出现了一系列扩散感知蒸馏算法,以减轻与扩散模型(DMS)多步推理过程相关的计算开销。当前的蒸馏技术通常会分为两个不同的方面:i)ode轨迹保存;ii)ODE轨迹重新制定。但是,这些方法患有严重的性能降解或域移位。为了解决这些局限性,我们提出了Hyper-SD,这是一个新型框架,协同合并ODE轨迹保存和重新制定的优势,同时在台阶压缩过程中保持近乎无情的性能。首先,我们引入轨迹分段的一致性蒸馏,以在预定义的时间段段内逐步执行一致的蒸馏,从而有助于从高阶的角度来保存原始ODE轨迹。原创 2025-02-08 18:34:12 · 873 阅读 · 0 评论 -
(NIPS-2024)Wasserstein 距离可与 Kullback-Leibler 散度相媲美,实现知识蒸馏
自从 Hinton 等人的开创性工作以来,基于 KullbackLeibler 散度 (KL-Div) 的知识蒸馏一直占据主导地位,最近它的变体也取得了令人瞩目的表现。然而,KL-Div 只比较老师和学生对应类别的概率,而缺乏跨类别比较的机制。此外,KL-Div 在应用于中间层时存在问题,因为它无法处理不重叠的分布,并且不知道底层流形的几何形状。为了解决这些缺点,我们提出了一种基于 Wasserstein 距离 (WD) 的知识蒸馏方法。原创 2025-01-17 14:25:19 · 1572 阅读 · 0 评论 -
(ICLR-2025)引导式分数身份蒸馏,实现无数据一步式文本到图像生成
基于扩散的文本到图像生成模型在大量文本-图像对上进行训练,已证明能够生成与文本描述相符的照片级逼真的图像。然而,这些模型的一个重大限制是它们的样本生成过程缓慢,这需要通过同一网络进行迭代细化。为了解决这个问题,我们引入了一种无数据引导蒸馏方法,该方法无需访问真实训练数据即可高效地蒸馏预训练的稳定扩散模型,而真实训练数据通常由于法律、隐私或成本问题而受到限制。该方法通过长和短无分类器指导 (LSG) 增强了分数身份蒸馏 (SiD),这是一种创新策略,它不仅将无分类器指导 (CFG) 应用于预训练扩散模型的评估原创 2024-12-19 16:38:32 · 807 阅读 · 0 评论