扩散模型
文章平均质量分 89
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
仅用1张图1小时,比肩FLUX.1和Qwen,推理狂飙5倍!Glance用“快慢哲学”颠覆扩散模型!
Glance框架采用轻量级蒸馏架构,通过相位感知的"慢-快"设计加速扩散模型推理。研究发现,LoRA适配器能够有效区分去噪过程的不同阶段,从而高效捕捉全局语义与局部细节。该框架仅需八步即可实现高质量图像生成,相比基础模型获得5倍加速。尽管仅使用单张图像和数小时GPU训练,Glance仍能保持相当的视觉保真度,并对未见提示词展现出强大泛化能力。原创 2025-12-12 07:30:07 · 779 阅读 · 0 评论 -
ICCV 2025 | 北大王选所推出AnyPortal:像素级操控视频背景,前景细节100%保留!
核心挑战:现有视频生成技术难以实现精细化的细节控制,无法精确对齐用户意图,特别是在视频背景替换任务中。具体问题前景一致性:替换背景时,难以保持前景主体(如人物、物体)的像素级细节和外观一致性,容易出现非预期的改变。时序照明一致性:难以在视频序列中保持照明效果的时序连贯性。资源限制:专业绿幕流程成本高昂;基于数据驱动的视频方法缺乏高质量的配对视频数据集,且模型训练需要巨大的计算资源。原创 2025-12-04 13:08:48 · 1014 阅读 · 0 评论 -
南洋理工&腾讯最新Rolling Forcing解决流视频生成长期误差累积,连贯如一且长达数分钟!
《RollingForcing:实时自回归长视频扩散技术》提出了一种创新框架,通过滚动窗口联合去噪技术和注意力汇机制,实现了单个GPU上16fps的实时长视频生成。该技术突破性地解决了传统流视频生成中的误差累积问题,能在数分钟时长的视频中保持高质量和一致性。通过双向注意力优化和全局上下文锚定,系统显著降低了长期质量漂移,同时采用高效训练算法减轻曝光偏差。实验表明,该方法在视觉保真度、时间一致性和实时性能上均优于现有技术,为长视频流媒体应用提供了实用解决方案。原创 2025-12-03 13:51:11 · 630 阅读 · 0 评论 -
返璞归真!MIT何恺明再次颠覆生成模型:抛弃“去噪”,Diffusion模型直接预测干净图像!
本文提出了一种回归扩散模型本质的x-prediction方法,通过直接预测清晰图像而非噪声或速度,有效克服了高维像素空间建模的维度灾难问题。基于流形假设(Manifold Assumption),研究者设计了一种极简的JiT(Just image Transformers)架构,使用标准Vision Transformer直接在像素块上进行扩散生成,无需分词器、预训练或辅助损失。实验表明,该方法在ImageNet 256×256和512×512分辨率上取得优异性能,并能优雅扩展到1024×1024分辨率。原创 2025-11-19 23:08:05 · 1028 阅读 · 0 评论 -
Stability AI最新重磅工作发布!突破设备限制:SD3.5-Flash让高效图像生成触手可及
摘要: 本文提出SD3.5-Flash,一种高效的少步蒸馏框架,通过两项核心创新解决少步生成模型的挑战:1)时间步共享:利用学生模型轨迹的真实样本点替代重加噪估计,提升梯度稳定性,确保4步内生成高保真图像;2)分时间步微调:通过拆分模型专注不同时间步任务(如语义对齐与美学质量),缓解容量限制,合并后实现紧凑且高性能的模型。此外,进行全栈优化(文本编码器重构、精细化量化),使模型兼容从手机到数据中心的多类硬件。原创 2025-10-13 12:59:36 · 1291 阅读 · 0 评论 -
统一高效图像生成与编辑!百度&新加坡国立提出Query-Kontext,多项任务“反杀”专用模型
摘要: 本文提出Query-Kontext,一种经济型统一多模态模型(UMM),通过解耦视觉语言模型(VLM)的多模态生成推理与扩散模型的高保真渲染能力,提升图像生成与编辑性能。核心设计包括:1)多模态“Kontext”机制,将VLM输出的语义线索与扩散模型连接;2)三阶段渐进训练策略,逐步对齐VLM与扩散模型,增强各自优势;3)混合数据集,整合真实、合成及开源数据,覆盖文本生成、指令编辑等多样化任务。原创 2025-10-10 13:13:38 · 1216 阅读 · 0 评论 -
让SDXL实现50倍加速!中山&字节最新对抗训练+双空间判别,单步生成新标杆!性能狂飙
【摘要】本文提出对抗分布匹配(ADM)框架,通过扩散判别器在隐空间对齐真实与伪造分数估计,替代传统显式散度度量,有效解决分布匹配蒸馏中的模式崩溃问题。创新性地采用混合判别器对抗蒸馏(ADP)进行预训练,结合ODE轨迹分布损失优化初始化,与ADM微调形成统一流程DMDX。在SDXL上实现50倍加速的一步生成,同时为SD3、CogVideoX等模型设立图像/视频高效生成新基准。实验表明,该方法在保真度、多样性和训练稳定性方面显著优于现有方案,尤其通过三次方时间步调度增强模式覆盖能力。原创 2025-08-18 11:02:19 · 1107 阅读 · 0 评论 -
ICCV 2025 | 32倍瘦身成功!英伟达最新DC-AR,秒杀扩散模型!图像生成进入“光速时代”
本文提出DC-AR,一种高效的自回归文本生成图像框架。通过引入DC-HT混合tokenizer(32倍空间压缩率)和三阶段适应训练策略,解决了传统方法重建质量低的问题。DC-AR采用结构-细节分离生成机制:先预测离散token确定图像结构,再用残差token优化细节。实验表明,该方法在MJHQ-30K上取得5.49 gFID,推理速度比扩散模型快1.5-7.9倍,延迟降低2.0-3.5倍,仅需12步即可生成高质量图像,同时支持跨分辨率泛化。原创 2025-07-24 23:41:25 · 1211 阅读 · 0 评论 -
打破次元壁!港大和达摩院联合发布头号玩家PlayerOne模型:世界首款“自我中心”模拟器!
香港大学与阿里达摩院联合推出PlayerOne模型,实现真实世界的第一人称动态模拟。该系统通过外置摄像头捕捉用户动作(如手势、头部转动),将其无缝融入由单张图像构建的虚拟场景,支持无限制交互与AAA级画质体验。关键技术包括:部件解耦的动作编码(区分头/手/躯干)、4D场景点云重建确保一致性,以及两阶段训练策略解决数据稀缺问题。相比现有方案,PlayerOne在动作对齐和场景交互方面表现更优,为沉浸式社交、虚拟探索等应用开辟新可能。原创 2025-06-17 00:11:07 · 1285 阅读 · 0 评论 -
视频修复黑科技!SeedVR2一步出高清,对抗训练让模糊瞬间变好莱坞级!南洋理工&字节
摘要: 本文提出 SeedVR2,一种基于一步扩散模型的高效视频修复方法,通过 自适应窗口注意力机制 动态调整窗口大小,解决高分辨率(如1080p)修复中的窗口不一致问题。结合 对抗式后训练 和渐进式蒸馏策略,优化损失函数(如特征匹配损失),显著提升模型稳定性与修复质量。实验表明,SeedVR2在合成与真实场景数据上均优于现有方法,推理速度比多步扩散模型快4倍以上,兼顾高效性与细节还原能力。未来将优化模型复杂度以支持实时应用。原创 2025-06-15 22:53:32 · 1501 阅读 · 0 评论 -
45倍加速+最新SOTA!VAE与扩散模型迎来端到端联合训练:REPA-E让VAE自我进化!
现有隐空间扩散模型(LDM)采用两阶段训练(先训练VAE,再固定VAE训练扩散模型),导致两个阶段的优化目标不一致,限制了生成性能。直接端到端联合训练VAE和扩散模型时,传统扩散损失(Diffusion Loss)失效,甚至导致性能下降。原创 2025-04-23 08:01:51 · 1293 阅读 · 0 评论 -
CVPR 2025 | 扩散模型炼出新绝技!注意力蒸馏技术:图像生成效果全面碾压传统方法
现有生成扩散模型在图像风格和语义理解方面虽然有进展,但在将参考图像的视觉特征转移到生成图像中时,使用即插即用注意力特征的方法存在局限性。原创 2025-03-03 07:42:19 · 1857 阅读 · 0 评论 -
MIT何恺明再次突破传统:分形递归架构引爆生成模型新纪元!
复杂生成模型的模块化:现有的生成模型(如扩散模型和自回归模型)虽然已经模块化,但缺乏更高层次的模块化抽象,难以构建更复杂的生成系统。非顺序数据的生成:现有方法在处理像素级图像生成等非顺序数据时表现不佳,尤其是在似然估计和生成质量方面。自然数据的分形特性:自然数据(如图像、蛋白质结构等)通常具有分形或近分形特性,现有生成模型未能充分利用这一特性。原创 2025-03-02 09:38:43 · 2670 阅读 · 0 评论 -
ICLR 2025 | 计算量仅DiT一半!中山大学&360 AI研究院开源Qihoo-T2X:统一架构搞定T2X任务
论文地址:https://arxiv.org/pdf/2409.04005项目主页:https://360cvgroup.github.io/Qihoo-T2X代码仓库:https://github.com/360CVGroup/Qihoo-T2X:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360 AI Research视频生成方向的负责人马傲。原创 2025-02-16 17:06:36 · 947 阅读 · 0 评论 -
仅128个token达到ImageNet生成SOTA性能!MAETok:有效的扩散模型的关键是什么?(卡内基梅隆&港大等)
现有的扩散模型通常使用变分自编码器(VAE)作为tokenizer,但VAE的变分约束可能限制了重建质量,影响生成效果。此外,现有的自动编码器(AE)虽然能提供更高保真度的重建,但其潜在空间可能过于混乱,不利于扩散模型的训练和采样。因此,如何构建一个既能保持高重建质量,又能提供良好结构化潜在空间的tokenizer仍然是一个未解决的问题。原创 2025-02-08 23:55:15 · 1508 阅读 · 0 评论
分享