- 博客(440)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注

原创 更改pip源至清华、阿里、中科大镜像(临时使用)
可以在使用pip的时候加参数清华源:-i https://pypi.tuna.tsinghua.edu.cn/simple阿里源:-i https://mirrors.aliyun.com/pypi/simple中科大源:-i https://pypi.mirrors.ustc.edu.cn/simple/ ...
2019-10-05 16:29:07
13337
原创 (CVPR-2025)无需归一化的Transformer
归一化层在现代神经网络中无处不在,并长期被认为是必不可少的。本研究表明,不使用归一化的Transformer可以通过一种极其简单的技术达到甚至超过标准性能。我们提出了Dynamic Tanh(DyT),这是一种逐元素的操作DyTxtanhαxDyTxtanhαx,可以直接替代Transformer中的归一化层。DyT的灵感来自于一个观察:Transformer中的层归一化通常会产生类似tanh的、SSS形的输入输出映射。
2025-04-01 10:56:42
958
原创 (Arxiv-2025)Magic 1-For-1:在一分钟内生成一分钟视频剪辑
在本技术报告中,我们提出了 Magic 1-For-1(Magic141),这是一种在内存消耗和推理延迟方面经过优化的高效视频生成模型。其核心思想很简单:将文本到视频的生成任务分解为两个更容易的子任务,即文本到图像生成和图像到视频生成,从而实现扩散步蒸馏。我们验证了,在相同的优化算法下,相较于文本到视频任务,图像到视频任务确实更容易收敛。我们还探索了一系列优化技巧,从三个方面降低训练图像到视频(I2V)模型的计算成本:1)通过多模态先验条件注入来加速模型收敛;2)通过应用对抗性步蒸馏来加速推理延迟;
2025-04-01 10:56:00
743
原创 (Arxiv-2025)Magic 1-For-1:在一分钟内生成一分钟视频剪辑
在本技术报告中,我们提出了 Magic 1-For-1(Magic141),这是一种在内存消耗和推理延迟方面经过优化的高效视频生成模型。其核心思想很简单:将文本到视频的生成任务分解为两个更容易的子任务,即文本到图像生成和图像到视频生成,从而实现扩散步蒸馏。我们验证了,在相同的优化算法下,相较于文本到视频任务,图像到视频任务确实更容易收敛。我们还探索了一系列优化技巧,从三个方面降低训练图像到视频(I2V)模型的计算成本:1)通过多模态先验条件注入来加速模型收敛;2)通过应用对抗性步蒸馏来加速推理延迟;
2025-03-24 17:13:12
744
原创 (Arxiv-2025)MagicDistillation:用于大规模人像少步合成的弱到强视频蒸馏
对开源大规模视频扩散模型(VDMs)进行微调以适应肖像视频合成任务,在多个维度上都能显著提升,例如视觉质量和面部运动的自然动态。尽管这些方法已取得进展,但如何实现逐步蒸馏(step distillation)并减少大规模VDMs所带来的大量计算开销仍未被深入探索。为填补这一空白,本文提出了弱到强的视频蒸馏方法(Weak-to-Strong Video Distillation,W2SVD),以缓解训练过程中的显存不足问题和在原始DMD中观察到的训练崩溃问题。
2025-03-24 16:20:49
930
原创 (NIPS-2024)奖励足以快速生成照片般逼真的文本到图像
对齐生成图像与复杂文本提示和人类偏好是人工智能生成内容(AIGC)中的核心挑战。随着基于奖励增强的扩散蒸馏(reward-enhanced diffusion distillation)成为提升文本到图像模型可控性和逼真度的有前途方法,我们识别出一个基本的范式转变:当条件变得更加具体且奖励信号更强时,奖励本身成为生成的主导力量。相比之下,扩散损失(diffusion losses)仅仅是一种代价高昂的正则化形式。为了彻底验证我们的假设,我们提出R0,一种基于正则化奖励最大化。
2025-03-19 17:12:50
605
原创 (NIPS-2024)基于令牌合并的免训练文生图语义绑定
作者:胡泰航 南开大学文章标题:Token Merging for Training-Free Semantic Binding in Text-to-Image Synthesis。
2025-03-19 10:37:30
978
原创 论文解读 | NeurIPS 2024 更快的扩散:重新思考扩散模型推理中编码器的作用
扩散模型的一个主要缺点是图像生成的推理时间慢。解决这个问题的最成功方法之一是蒸馏方法。然而,这些方法需要大量的计算资源。在本文中,我们采取了另一种方法来加速扩散模型。我们对UNet编码器进行了全面研究,并实证分析了编码器特征。这为我们提供了关于它们在推理过程中变化的见解。特别是,我们发现编码器特征变化很小,而解码器特征在不同时间步中表现出显著变化。这一见解激励我们在某些相邻时间步中省略编码器计算,并在多个时间步中将前一时间步的编码器特征作为输入重用到解码器。
2025-03-18 15:01:01
793
原创 (Arxiv-2025)SNOOPI:具有适当引导的超级增强单步扩散蒸馏
近期的研究表明,在将多步文本到图像扩散模型蒸馏为单步模型的过程中,取得了令人鼓舞的成果。当前最先进的蒸馏技术,例如 SwiftBrushv2(SBv2),甚至能够在有限资源下超越教师模型的性能。然而,我们的研究发现,现有方法在处理不同扩散模型架构时存在不稳定性,主要原因是在变分得分蒸馏(Variational Score Distillation, VSD)损失中使用了固定的引导尺度。
2025-02-26 11:09:59
976
原创 (Arxiv 2025)一步扩散模型与 $f$-散度分布匹配
从扩散模型中采样涉及一个缓慢的迭代过程,这阻碍了其在实际应用中的部署,尤其是在交互式应用中。为了加速生成速度,近年来的方法通过变分评分蒸馏(variational score distillation)将多步扩散模型蒸馏到单步学生生成器中,从而使得学生生成的样本分布匹配教师模型的分布。然而,这些方法使用逆 Kullback-Leibler(KL)散度进行分布匹配,而这种方式已知具有模式塌陷的倾向。在本文中,我们提出了一种基于fff-散度最小化的新框架,称为 fff-distill,它能够涵盖不同的散度,并
2025-02-25 14:41:20
860
原创 (Arxiv-2025)ImageRAG:用于参考引导图像生成的动态图像检索
扩散模型能够合成高质量和多样化的视觉内容。然而,它们在生成罕见或未见概念时存在困难。为了解决这一挑战,我们探索了检索增强生成(Retrieval-Augmented Generation, RAG)在图像生成模型中的应用。我们提出了 ImageRAG,这是一种基于给定文本提示动态检索相关图像,并将其作为上下文来引导生成过程的方法。先前的方法使用检索到的图像来改进生成,但通常需要专门针对检索增强生成进行训练。而相比之下,ImageRAG 利用了现有的图像条件生成模型的能力,不需要针对 RAG 进行特定训练。
2025-02-21 15:21:13
1025
原创 (ICLR-2025)CTRL-ADAPTER:一种高效且通用的框架,用于将多种控制适配到任意扩散模型
ControlNets 被广泛用于向文本到图像的扩散模型添加空间控制,并支持不同的条件,例如深度图、涂鸦/素描和人体姿态。然而,在可控视频生成方面,ControlNets 由于特征空间的不匹配,无法直接集成到新的主干网络中,并且为新主干网络训练 ControlNets 对许多用户来说是一项巨大的负担。此外,独立地将 ControlNets 应用于不同帧无法有效保持目标的时间一致性。为了解决这些挑战,我们提出了。
2025-02-18 15:22:44
583
原创 (ICML-2024)得分一致性蒸馏:指数加速预训练扩散模型的一步生成蒸馏
我们提出了 Score Identity Distillation (SiD),这是一种创新的无数据蒸馏方法,可以将预训练的扩散模型的生成能力蒸馏到单步生成器中。SiD 不仅在蒸馏过程中实现了弗雷谢初始距离(FID)的指数级快速下降,而且在某些情况下甚至能接近或超越原始教师扩散模型的 FID 性能。我们通过将前向扩散过程重新表述为半隐式分布,利用三个与得分相关的恒等式,设计了一种创新的损失机制。该机制通过使用生成器自身合成的图像进行训练,实现了快速的 FID 下降,消除了对真实数据或基于反向扩散的生成的依
2025-02-16 15:46:37
1096
原创 (Neurocomputing-2024)RoFormer: 增强型 Transformer 与旋转位置编码
位置编码在 Transformer 结构中已被证明是有效的。它能够为序列中不同位置的元素之间的依赖关系建模提供有价值的监督。在本文中,我们首先探讨了将位置信息整合到基于 Transformer 的语言模型学习过程中的各种方法。然后,我们提出了一种新方法,称为旋转位置编码(Rotary Position Embedding, RoPE),以有效利用位置信息。具体而言,所提出的 RoPE 通过旋转矩阵对绝对位置进行编码,同时在自注意力计算中显式地融入相对位置的依赖关系。值得注意的是,RoPE 具备多种优越特性,
2025-02-14 20:52:02
1296
原创 (ICLR-2025)你只采样一次:通过自协作扩散 GAN 驯服一步文本到图像合成
近年来,一些研究尝试结合扩散模型(Diffusion Models, DMs)和生成对抗网络(Generative Adversarial Networks, GANs),以降低扩散模型中迭代去噪推理的计算成本。然而,这一方向的现有方法通常存在训练不稳定、模式崩溃或一步生成的学习效率较低等问题。为了解决这些问题,我们提出YOSO,这是一种全新的生成模型,专为快速、可扩展且高保真度的一步图像生成设计,同时具有高训练稳定性和模式覆盖能力。具体而言,我们通过去噪生成器自身平滑对抗散度,从而实现自协作学习。
2025-02-14 10:20:54
1159
原创 (ICLR-2024)探索文本到图像的定制化:从 LyCORIS 微调到模型评估
文本到图像生成模型因其能够根据文本提示生成高保真图像而受到极大关注。在这些模型中,Stable Diffusion 作为该快速发展的领域中的领先开源模型脱颖而出。然而,对这些模型进行微调的复杂性带来了多个挑战,包括新方法的集成以及系统化评估。为了解决这些问题,本文介绍了 LyCORIS(Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion),这是一个开源库,提供了多种 Stab
2025-02-14 10:19:34
1039
原创 (NIPS-2024)改进的分布匹配蒸馏以快速图像合成
最近的研究表明,通过蒸馏昂贵的扩散模型,可以生成高效的单步生成器。其中,分布匹配蒸馏(Distribution Matching Distillation,DMD)能够生成在分布上与教师模型匹配的单步生成器,即蒸馏过程并不强制与教师模型的采样轨迹一一对应。然而,为了确保实际训练的稳定性,DMD 需要额外的回归损失,该损失是通过教师模型使用确定性采样器进行多步采样所生成的大量噪声-图像对计算得到的。这不仅对大规模文本到图像合成计算代价高昂,而且还限制了学生模型的质量,使其过于依赖教师模型的原始采样路径。
2025-02-10 13:21:49
643
原创 (CVPR-2024)一步扩散,分布匹配蒸馏
扩散模型可以生成高质量图像,但通常需要数十次前向传播。我们提出了分布匹配蒸馏(Distribution Matching Distillation,DMD)方法,这是一种将扩散模型转换为一步图像生成器的过程,同时尽可能减少对图像质量的影响。我们强制一步图像生成器在分布层面上匹配扩散模型,通过最小化近似 KL 散度,其梯度可以表示为两个得分函数之差,一个来自目标分布,另一个来自我们的单步生成器所产生的合成分布。这些得分函数由两个分别在每个分布上单独训练的扩散模型参数化。
2025-02-09 17:09:35
825
原创 (ICLR=2025)生成的表征对齐:训练扩散Transformer比你想象的更简单
最近的研究表明,扩散模型中的去噪过程能够在模型内部产生有意义的(判别性)表示,尽管这些表示的质量仍然落后于通过最近的自监督学习方法学习的表示。我们认为,训练大规模扩散模型以进行生成的主要瓶颈之一在于如何有效地学习这些表示。此外,通过引入高质量的外部视觉表示,而不是仅依赖扩散模型独立学习这些表示,训练可以变得更加容易。我们通过引入一种简单的正则化方法——表示对齐(REPA),来研究这一点,该方法将去噪网络中噪声输入隐藏状态的投影与从外部预训练视觉编码器获得的干净图像表示对齐。
2025-02-08 22:01:11
1327
原创 (Arxiv-2023)HiPA: 通过高频增强自适应实现一步文本到图像扩散模型
扩散模型已彻底改变了文本到图像的生成,但是它们的现实应用程序受到数百个扩散步骤所需的大量时间的阻碍。尽管已经提出了渐进式蒸馏以加快扩散采样的加快,但它仍然是一步生成的短缺,因此需要训练多个学生模型,这是高度参数性的遗产性且耗时。为了克服这些局限性,我们引入了高频增强适应性(HIPA),这是一种启用访问文本到图像扩散的参数有效方法。HIPA基于一个洞察,即高频信息至关重要,但在一步扩散中高度缺乏,重点是训练一步,低秩的适配器,以特别增强了高级扩散模型的代表性不足的高频能力。
2025-02-08 20:43:40
989
原创 (NIPS-2024)Hyper-SD:有效图像合成的轨迹分割一致性模型
最近,已经出现了一系列扩散感知蒸馏算法,以减轻与扩散模型(DMS)多步推理过程相关的计算开销。当前的蒸馏技术通常会分为两个不同的方面:i)ode轨迹保存;ii)ODE轨迹重新制定。但是,这些方法患有严重的性能降解或域移位。为了解决这些局限性,我们提出了Hyper-SD,这是一个新型框架,协同合并ODE轨迹保存和重新制定的优势,同时在台阶压缩过程中保持近乎无情的性能。首先,我们引入轨迹分段的一致性蒸馏,以在预定义的时间段段内逐步执行一致的蒸馏,从而有助于从高阶的角度来保存原始ODE轨迹。
2025-02-08 18:34:12
826
原创 (JMLR-2022)Switch Transformers:通过简单高效的稀疏性扩展到万亿参数模型
在深度学习中,模型通常会对所有输入重复使用相同的参数。混合专家 (MoE) 模型则打破了这一传统,而是为每个传入示例选择不同的参数。结果是一个稀疏激活模型,具有大量参数,但计算成本却保持不变。然而,尽管 MoE 取得了一些显著的成功,但其广泛采用却受到复杂性、通信成本和训练不稳定性等因素的阻碍。我们通过引入 Switch Transformer 来解决这些问题。我们简化了 MoE 路由算法,并设计了直观的改进模型,降低了通信和计算成本。
2025-01-17 16:02:56
755
原创 (NIPS-2024)Wasserstein 距离可与 Kullback-Leibler 散度相媲美,实现知识蒸馏
自从 Hinton 等人的开创性工作以来,基于 KullbackLeibler 散度 (KL-Div) 的知识蒸馏一直占据主导地位,最近它的变体也取得了令人瞩目的表现。然而,KL-Div 只比较老师和学生对应类别的概率,而缺乏跨类别比较的机制。此外,KL-Div 在应用于中间层时存在问题,因为它无法处理不重叠的分布,并且不知道底层流形的几何形状。为了解决这些缺点,我们提出了一种基于 Wasserstein 距离 (WD) 的知识蒸馏方法。
2025-01-17 14:25:19
1478
原创 (Arxiv-2024)E2EDiff:增强扩散模型的噪声到数据直接映射
扩散模型已成为生成建模的强大框架,在各种任务中都取得了最先进的性能。然而,它们面临着几个固有的局限性,包括训练采样差距、渐进噪声过程中的信息泄漏,以及无法在训练期间纳入感知和对抗损失等高级损失函数。为了应对这些挑战,我们提出了一个创新的端到端训练框架,通过直接优化最终的重建输出来协调训练和采样过程。我们的方法消除了训练采样差距,通过将训练过程视为从纯噪声到目标数据分布的直接映射来减轻信息泄漏,并将感知和对抗损失整合到目标中。
2025-01-15 19:01:49
676
原创 (ICLR-2025)SHOW-O:一个统一多模态理解和生成的单一转换器
我们提出了一个统一的转换器,即 Show-o,它统一了多模态理解和生成。与完全自回归模型不同,Show-o 统一了自回归和(离散)扩散建模,以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持广泛的视觉语言任务,包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中,它表现出与现有的单个模型相当或更优的性能,这些模型具有同等或更多的为理解或生成而定制的参数。这大大凸显了它作为下一代基础模型的潜力。
2025-01-15 11:31:06
1609
原创 (NIPS-2024)GAN 已死;GAN 万岁!现代基线 GAN
有一种普遍的说法是 GAN 难以训练,文献中的 GAN 架构充斥着经验技巧。我们提供了反驳这一说法的证据,并以更原则的方式构建了现代 GAN 基线。首先,我们推导出一个表现良好的正则化相对论 GAN 损失,解决了模式丢失和非收敛问题,这些问题之前是通过一袋临时技巧解决的。我们对我们的损失进行了数学分析,并证明它承认局部收敛保证,这与大多数现有的相对论损失不同。其次,这种损失使我们能够丢弃所有临时技巧,并用现代架构替换常见 GAN 中使用的过时主干。
2025-01-15 10:32:32
1180
原创 (ACL-2024)MELoRA:用于参数高效微调的迷你集成低秩适配器
参数高效微调 (PEFT) 是一种流行的定制预训练大型语言模型 (LLM) 的方法,尤其是在模型规模和任务多样性增加的情况下。低秩自适应 (LoRA) 基于这样的思想:自适应过程本质上是低维的,即显著的模型变化可以用相对较少的参数来表示。然而,与全参数微调相比,降低秩会遇到特定任务的泛化误差挑战。我们提出了 MELoRA,这是一种小型集成低秩适配器,它使用更少的可训练参数,同时保持较高的秩,从而提供更高的性能潜力。核心思想是冻结原始预训练权重并训练一组仅具有少量参数的小型 LoRA。
2025-01-14 15:36:33
1357
原创 (EACL-2023)DyLoRA:使用动态无搜索低秩自适应对预训练模型进行参数高效调整
随着预训练模型 (PM) 的大小不断增长,微调变得更加昂贵且耗费资源。作为一种补救措施,低秩适配器 (LoRA) 保持模型的主要预训练权重不变,只向模型引入一些可学习的截断 SVD 模块(所谓的 LoRA 块)。虽然 LoRA 块具有参数效率,但它们存在两个主要问题:首先,这些块的大小是固定的,训练后无法修改(例如,如果我们需要更改 LoRA 块的秩,则需要从头开始训练它们);其次,优化它们的秩需要进行详尽的搜索。在这项工作中,我们引入了一种动态低秩自适应 (DyLoRA) 解决方案来同时解决这两个问题。
2025-01-14 14:38:42
1014
原创 (EMNLP-2023)预训练语言模型的稀疏低秩自适应
以参数高效的方式对预训练的大型语言模型进行微调因其有效性和效率而受到广泛研究。流行的低秩自适应 (LoRA) 方法提供了一种值得注意的方法,假设自适应过程本质上是低维的。尽管 LoRA 表现出了令人称赞的性能,但它是以固定且不可改变的内在秩来实现的,这可能并不总是理想的选择。认识到需要更灵活的自适应,我们将 LoRA 方法扩展到一种创新方法,我们称之为稀疏低秩自适应 (SoRA),该方法可以在自适应过程中动态调整内在秩。
2025-01-14 14:37:58
663
原创 (EMNLP-2023)预训练语言模型的稀疏低秩自适应
以参数高效的方式对预训练的大型语言模型进行微调因其有效性和效率而受到广泛研究。流行的低秩自适应 (LoRA) 方法提供了一种值得注意的方法,假设自适应过程本质上是低维的。尽管 LoRA 表现出了令人称赞的性能,但它是以固定且不可改变的内在秩来实现的,这可能并不总是理想的选择。认识到需要更灵活的自适应,我们将 LoRA 方法扩展到一种创新方法,我们称之为稀疏低秩自适应 (SoRA),该方法可以在自适应过程中动态调整内在秩。
2025-01-14 11:12:34
941
原创 (NAACL-2024)Tied-LoRA:通过 Weight Tying 提高 LoRA 的参数效率
我们引入了 Tied-LoRA,这是一种利用权重绑定和选择性训练来提高低秩自适应 (LoRA) 参数效率的新范式。我们的探索涵盖了参数训练和冻结的不同合理组合,以及权重绑定,旨在确定性能和可训练参数数量之间的最佳权衡。在 5 个不同的任务和两个具有不同参数数量的基础语言模型中,我们的实验提供了对效率和性能之间固有权衡的全面见解。
2025-01-14 10:14:36
619
原创 (ICLR-2024)NOLA:使用随机基的线性组合压缩 LORA
由于模型规模巨大(例如,GPT-3 中的 350GB),因此微调大型语言模型 (LLM) 并为每个下游任务或领域存储它们并不切实际。当前的文献(例如 LoRA)展示了对 LLM 原始权重进行低秩修改的潜力,从而能够高效地适应和存储特定于任务的模型。这些方法可以将微调 LLM 所需的参数数量减少几个数量级。然而,这些方法面临两个主要限制:(1) 参数数量受秩一分解的下限限制,(2) 减少的程度受模型架构和所选秩的严重影响。我们引入了 NOLA,它克服了 LoRA 中存在的秩一下限。
2025-01-13 11:04:21
1050
原创 (ICLR-2024)VERA:基于向量的随机矩阵自适应
低秩自适应 (LoRA) 是一种流行的方法,可在微调大型语言模型时减少可训练参数的数量,但在扩展到更大的模型或部署大量按用户或按任务自适应的模型时,仍然面临严峻的存储挑战。在这项工作中,我们提出了基于向量的随机矩阵自适应 (VeRA),与 LoRA 相比,它显著减少了可训练参数的数量,但保持了相同的性能。它通过使用在所有层之间共享的一对低秩矩阵并学习小缩放向量来实现这一点。我们在 GLUE 和 E2E 基准、图像分类任务上证明了它的有效性,并展示了它在 7B 和 13B 语言模型的指令调整中的应用。
2025-01-13 10:24:39
1352
原创 (ICLRW-2024)基础模型低秩适配器的不对称性
参数高效微调通过更新参数子集来优化大型预训练基础模型;在这一类中,低秩自适应 (LoRA) 特别有效。受研究 LoRA 矩阵在微调过程中的不同作用的启发,本文描述并利用了低秩适配器矩阵重要性的意外不对称性。具体来说,当通过添加乘积 BA 来更新神经网络的参数矩阵时,我们观察到 B 和 A 矩阵具有不同的功能:A 从输入中提取特征,而 B 使用这些特征来创建所需的输出。基于这一观察,我们证明微调 B 本质上比微调 A 更有效,并且随机未经训练的 A 的表现应该几乎与微调的 A 一样好。
2025-01-10 16:37:34
1046
原创 (Arxiv-2023)LORA-FA:针对大型语言模型微调的内存高效低秩自适应
低秩自适应 (LoRA) 方法可以大大减少微调大型语言模型 (LLM) 所需的可训练参数数量,但是,它仍然需要昂贵的激活内存来更新低秩权重。减少 LoRA 层数或使用激活重新计算可能会损害微调性能或增加计算开销。在这项工作中,我们提出了 LoRA-FA,这是一种内存高效的微调方法,它可以在不降低性能和进行昂贵的重新计算的情况下减少激活内存。LoRA-FA 选择在每个 LoRA 层中冻结 A 的向下投影权重并更新 B 的向上投影权重。
2025-01-10 15:33:55
1102
原创 (NAACL-2024 Oral)LoRETTA:低秩经济张量训练自适应,用于大型语言模型的超低参数微调
为了在保持模型性能的同时实现计算效率高的微调,提出了各种参数高效微调 (PEFT) 技术。然而,随着大型语言模型 (LLM) 的快速部署,现有的 PEFT 方法仍然受到可训练参数数量不断增加的限制。为了应对这一挑战,我们提出了 LoRETTA,这是一个超参数高效框架,可通过张量训练分解显着减少可训练参数。具体来说,我们提出了两种方法,分别名为 LoRETTAadp 和 LoRETTArep。前者采用张量化适配器,为 LLM 的微调提供了一种高性能但轻量级的方法。
2025-01-10 09:19:02
1144
原创 (Arxiv-2025)DiC:重新思考扩散模型中的 Conv3x3 设计
扩散模型在视觉生成任务中表现出色。最近,这些模型已经从传统的 U 型 CNN-Attention 混合结构转变为完全基于 Transformer 的各向同性架构。虽然这些 Transformer 表现出强大的可扩展性和性能,但它们对复杂的自注意力操作的依赖导致推理速度缓慢。与这些工作相反,我们重新思考了深度学习中最简单但最快的模块之一 3x3 卷积,以构建一个放大的纯卷积扩散模型。我们首先发现,编码器-解码器沙漏设计优于 Conv3x3 的可扩展各向同性架构,但仍低于我们的预期。
2025-01-09 16:15:06
971
原创 (ICLR-2024)RELORA:通过低秩更新进行高秩训练
尽管扩展具有主导地位和有效性,从而产生了具有数千亿个参数的大型网络,但训练过度参数化模型的必要性仍然不太为人所知,而训练成本却呈指数级增长。在本文中,我们探索了参数高效的训练技术作为训练大型神经网络的方法。我们介绍了一种名为 ReLoRA 的新方法,该方法利用低秩更新来训练高秩网络。我们将 ReLoRA 应用于训练具有多达 13 亿个参数的 Transformer 语言模型,并表现出与常规神经网络训练相当的性能。
2025-01-03 16:05:27
1040
原创 (NIPS-2023)ProlificDreamer:通过变分分数蒸馏实现高保真、多样化的文本到 3D 生成
通过蒸馏预训练的大规模文本到图像扩散模型,分数蒸馏采样 (SDS) 在文本到 3D 生成中显示出巨大的前景,但它存在过度饱和、过度平滑和低多样性问题。在这项工作中,我们建议将 3D 参数建模为随机变量而不是像 SDS 中的常数,并提出变分分数蒸馏 (VSD),这是一个基于粒子的原则性变分框架,用于解释和解决文本到 3D 生成中的上述问题。我们表明 SDS 是 VSD 的一个特例,并且会导致具有较小和较大 CFG 权重的样本较差。相比之下,VSD 可以很好地与各种 CFG 权重配合使用,作为来自扩散模型的祖先
2025-01-03 15:49:44
1541
概率的公式推导,这步不知道怎么推过去的
2021-07-27
TA创建的收藏夹 TA关注的收藏夹
TA关注的人