AI生成未来-优快云博客

原创让SDXL实现50倍加速！中山&字节最新对抗训练+双空间判别，单步生成新标杆！性能狂飙

【摘要】本文提出对抗分布匹配（ADM）框架，通过扩散判别器在隐空间对齐真实与伪造分数估计，替代传统显式散度度量，有效解决分布匹配蒸馏中的模式崩溃问题。创新性地采用混合判别器对抗蒸馏（ADP）进行预训练，结合ODE轨迹分布损失优化初始化，与ADM微调形成统一流程DMDX。在SDXL上实现50倍加速的一步生成，同时为SD3、CogVideoX等模型设立图像/视频高效生成新基准。实验表明，该方法在保真度、多样性和训练稳定性方面显著优于现有方案，尤其通过三次方时间步调度增强模式覆盖能力。

2025-08-18 11:02:19 821

原创自回归新王登基！NextStep-1强势登场，图像生成SOTA达成！高保真+强编辑，太能打了！

NextStep-1：连续图像流匹配自回归架构的突破本文提出NextStep-1，一种创新的自回归模型，通过轻量级流匹配头（157M参数）实现高质量patch-by-patch图像生成，摆脱传统扩散模型依赖。核心创新包括：统一多模态框架：结合14B参数的自回归主干，同时处理离散文本和连续图像token，避免量化损失。高维隐空间稳定技术：通过通道归一化与随机扰动tokenizer设计，支持16通道稳定训练，消除伪影。

2025-08-18 10:55:24 554

原创 Lumina-mGPT 2.0横空出世：自回归模型终结扩散时代？媲美DALL·E 3，更自由、更全能！

摘要： Lumina-mGPT2.0提出了一种独立的自回归解码器模型，从零训练实现高质量多模态生成。与依赖预训练或混合架构的现有方法不同，该模型采用纯AR架构，支持图像生成、编辑、可控合成等统一任务。通过SBER-MoVQGAN分词器和多阶段训练策略，生成质量媲美DALL·E3等扩散模型。创新点包括推理时缩放提升质量、猜测式Jacobi采样加速解码，以及GPT-4o辅助的"生成前思考"优化提示。实验显示，其2B/7B版本在GenEval、DPG基准上表现优异，多任务能力超越同类模型。

2025-08-07 22:29:46 408

原创 LongVie突破超长视频生成极限：1分钟电影级丝滑视频，双模态控制告别卡顿退化

本文提出LongVie框架，针对可控长视频生成中的时序不一致性和视觉退化两大挑战进行了创新性解决。通过多模态控制机制（结合稠密深度图与稀疏关键点）、全局归一化和统一噪声初始化，显著提升了生成质量。实验表明，LongVie在1分钟以上视频生成中达到SOTA性能，并构建了包含100个1分钟视频的LongVGenBench评测基准。该工作为超长视频生成提供了新思路和评估标准。

2025-08-07 22:24:05 839

原创 ICCV 2025 | 视频生成迈入“多段一致”新时代！TokensGen用“压缩Token”玩转长视频生成

TokensGen提出创新两阶段框架解决长视频生成难题：1）To2V模型通过视频Tokenizer将短片段压缩为高语义密度Token，实现精细内容控制；2）T2To模型采用扩散Transformer一次性生成长视频Token序列，确保长期一致性。关键技术突破包括自适应FIFO-Diffusion对角去噪策略实现平滑过渡，以及基于PCA的轻量降维保持90%以上压缩率。实验表明，该方法在2分钟视频生成中显著优于主流基线，运动平滑度指标提升20%+，同时支持零拍摄长视频编辑。

2025-08-06 22:27:27 1436

原创 ICCV`25 | 视频魔法再升级！字节新神器VTG：输入首尾图+描述词，瞬间生成超自然丝滑转场

本文提出了一种统一的多功能视频过渡生成框架VTG，能够处理物体变形、概念混合、运动预测和场景转换四大任务。通过插值初始化缓解内容突变问题，结合双向运动微调提升时间连贯性，并引入表示对齐正则化增强保真度。实验表明，VTG在构建的TransitBench基准和公开数据集上均优于现有方法，实现了语义相关、高保真且平滑的过渡效果。该框架为内容创作提供了高质量的过渡生成工具。

2025-08-06 22:23:55 1010

原创全景宇宙黑科技！HunyuanWorld 1.0 发布：一键生成360°可交互3D世界

腾讯混元世界1.0（HunyuanWorld1.0）是一个创新的3D世界生成框架，通过融合2D与3D生成技术，实现从文本/图像创建沉浸式可交互3D场景。其核心是语义分层的3D网格表示，支持360°全景世界代理、分层重建和物体级解耦建模。采用全景图像作为世界代理，结合深度估计、网格变形和世界一致性视频扩散等技术，解决了传统方法在3D一致性、交互性和可扩展性方面的局限。实验表明，该系统在视觉质量、场景一致性和交互性上优于现有方法，支持VR、游戏开发、物理仿真等应用场景。

2025-08-05 21:42:46 796

原创 AI配音新王者！快手AudioGen-Omni：视频喂给它，歌声/语音/音效秒出，唇形精准到帧！

AudioGen-Omni 首个统一多模态框架，支持视频同步生成多样化音频（通用音频、语音、歌曲）。该模型采用多模态扩散Transformer（MMDiT）架构，通过相位对齐位置注入（PAAPI）技术实现精确的视听同步。创新性地使用轻量级歌词-转录模块实现帧对齐表示，无需音素时长监督。模型在联合训练范式下，利用大规模多模态数据，支持灵活的条件输入（视频/文本/音频任意组合）。实验表明，其在音频质量、语义连贯性和时序对齐方面均达到SOTA水平，8秒音频生成仅需1.91秒。

2025-08-05 21:36:11 1404

原创 ICCV 2025｜告别语义漂移！清华最新3D场景定制神器ScenePainter让“想象”走得更远

本文提出ScenePainter框架，解决3D场景生成中的语义漂移和多样性不足问题。通过构建分层图结构SceneConceptGraph，建模场景中物体、布局与风格的复杂关系，并优化扩散模型以对齐场景特定先验。框架支持动态细化概念关系，平衡语义一致性与内容创新。实验表明，相比现有方法（如WonderJourney），ScenePainter生成的长序列3D视图更一致且沉浸，CLIP-I和DINO指标分别提升15%和12%，用户研究显示其在多样性-一致性权衡上优势显著。

2025-08-04 23:42:57 600

原创 ICCV 2025｜单视频生成动态4D场景！中科大&微软突破4D生成瓶颈，动画效果炸裂来袭！

本文提出创新性4D生成框架GVF-Diffusion，通过"4D网格变分自编码器+高斯变分场扩散模型"双模块架构，实现高效视频到4D内容生成。关键突破包括：1）首创直接编码4D动画为紧凑隐空间的VAE，结合网格引导损失确保运动对齐；2）采用时间感知DiT架构的条件扩散模型，通过交叉注意力融合视频特征与3D高斯场；3）在合成数据训练下展现优秀真实视频泛化能力。实验表明，该方法在PSNR（25.37）、LPIPS（0.098）等指标上超越现有技术，单序列生成仅需4.5秒。

2025-08-04 23:37:06 1460

原创 ICCV 2025 | 32倍瘦身成功！英伟达最新DC-AR，秒杀扩散模型！图像生成进入“光速时代”

本文提出DC-AR，一种高效的自回归文本生成图像框架。通过引入DC-HT混合tokenizer（32倍空间压缩率）和三阶段适应训练策略，解决了传统方法重建质量低的问题。DC-AR采用结构-细节分离生成机制：先预测离散token确定图像结构，再用残差token优化细节。实验表明，该方法在MJHQ-30K上取得5.49 gFID，推理速度比扩散模型快1.5-7.9倍，延迟降低2.0-3.5倍，仅需12步即可生成高质量图像，同时支持跨分辨率泛化。

2025-07-24 23:41:25 977

原创 DiT迎来真·一致性之王！CharaConsist双杀角色变形&背景撕裂：跨场景换装不崩人设

本文提出CharaConsist，首个基于DiT架构的无需训练的一致性文本生成图像方法。针对现有方案在角色细节和背景一致性上的不足，该方法创新性地引入点追踪注意力机制和自适应Token合并技术：通过跨图像语义点匹配实现角色细粒度对齐，利用掩码提取分离前景/背景控制，并采用动态位置编码保持几何关系。实验表明，在背景保持与切换任务中，该方法在CLIP-I-fg/bg指标上分别超越基线模型15%/20%，且无需额外训练即可适配十亿级参数DiT。

2025-07-24 23:37:46 919

原创动脑就能P图！LoongX重磅突破：首个「脑波+AI」图像编辑系统诞生，意念修图不是梦！

摘要：本文提出LoongX框架，利用多模态神经信号（EEG、fNIRS、PPG、动作及语音）驱动免手图像编辑，解决了传统文本提示的交互局限。通过跨尺度状态空间（CS3）编码器和动态门控融合（DGF）模块，LoongX高效提取并融合多模态特征，结合扩散模型（DiT）实现语义对齐。

2025-07-22 22:33:49 903

原创 AI绘画翻车元凶找到了！新神器IMBA损失，在线轻调立竿见影，效果炸裂！清华&快手出品

本文提出IMBAloss方法，通过在线概念均衡提升生成模型的概念组合能力。研究首先分析了影响概念组合的三大因素：模型规模、数据规模和分布，发现数据分布是关键决定因素。针对数据不平衡问题，创新性地提出IMBA距离作为数据分布度量指标，并在此基础上设计自适应的IMBAloss损失函数，实现概念级均衡训练。为评估惰性概念组合能力，构建了Inert-CompBench基准测试集。实验表明，该方法在多个基准上显著提升组合成功率，尤其在处理低频概念时表现突出。

2025-07-22 22:30:22 820

原创海报设计革命,开源媲美部分商用！港科大&美团等提出PosterCraft：让AI实现「构图自由」

摘要： PosterCraft提出了一种统一框架，通过四阶段级联优化（文本渲染优化、风格微调、美学强化学习、视觉-语言反馈）生成高质量海报，解决了传统模块化方法导致的视觉连贯性差问题。其核心创新包括：构建专属数据集（如Text-Render-2M、HQ-Poster-100K）、区域感知校准策略和基于偏好的强化学习。实验表明，PosterCraft在文本准确性、布局连贯性和美学质量上超越开源基准，媲美商业系统，为端到端海报生成提供了高效解决方案。项目资源（代码、论文、演示）均已开源。

2025-07-06 22:57:42 754

原创 SIGGRAGH 2025 | AI视频生成新纪元！港大&达摩院发布LayerFlow：分层视频生成黑科技

LayerFlow一种创新的分层视频生成框架，能够同时生成带透明通道的前景、纯净背景及合成全景视频。通过层级文本提示控制和时间维度拼接实现多层协同生成，并设计了多阶段训练策略：先使用低质量视频数据训练基础模型，再通过MotionLoRA适配静态图像，最后用ContentLoRA融合高质量图像与视频数据。实验表明，该方法在审美质量、文本对齐和分层分解任务上显著优于基线模型，为视频编辑与特效制作提供了灵活可控的解决方案。该工作突破了传统T2V模型无法分层控制的限制，同时有效缓解了高质量分层视频数据稀缺的问题。

2025-06-18 13:32:09 635

原创视频去物“魔法橡皮擦”来了！MiniMax-Remover：新SOTA方法告别CFG，6步搞定

视频目标移除中的核心挑战模型容易生成幻觉物体（hallucinated objects）存在视觉伪影（visual artifacts）现有方法的局限性依赖计算成本高的采样过程严重依赖无分类器引导（Classifier-Free Guidance, CFG）推理速度慢，效率低。

2025-06-18 13:06:53 731

原创 CVPR`25 | 感知性能飙升50%！JarvisIR：VLM掌舵,为自动驾驶装上“火眼金睛”,不惧恶劣天气

JarvisIR是一种基于视觉语言模型（VLM）的智能图像恢复系统，专为解决自动驾驶等场景中复杂天气条件下的图像退化问题而设计。该系统通过VLM作为控制器，动态调度多个专家模型进行图像修复，并提出CleanBench数据集（包含合成和真实数据）及MRRHF对齐算法（结合监督微调与人类反馈）。实验表明，JarvisIR在真实场景中平均提升感知指标50%，显著优于现有方法。该研究为智能化图像恢复提供了新思路，推动了多模型协同技术的发展。

2025-06-17 23:09:23 979

原创打破次元壁！港大和达摩院联合发布头号玩家PlayerOne模型：世界首款“自我中心”模拟器！

香港大学与阿里达摩院联合推出PlayerOne模型，实现真实世界的第一人称动态模拟。该系统通过外置摄像头捕捉用户动作（如手势、头部转动），将其无缝融入由单张图像构建的虚拟场景，支持无限制交互与AAA级画质体验。关键技术包括：部件解耦的动作编码（区分头/手/躯干）、4D场景点云重建确保一致性，以及两阶段训练策略解决数据稀缺问题。相比现有方案，PlayerOne在动作对齐和场景交互方面表现更优，为沉浸式社交、虚拟探索等应用开辟新可能。

2025-06-17 00:11:07 1124

原创为何前馈3DGS的边界总是“一碰就碎”？PM-Loss用“3D几何先验”来解

本文提出PM-Loss，一种用于提升前馈式3D高斯泼溅(3DGS)几何质量的正则化损失。针对现有方法依赖2D深度图导致几何边界不完整的问题，PM-Loss利用大型3D重建模型生成的点云作为几何先验，在训练时直接约束3D空间的高斯分布。实验表明，该方法能有效消除边界浮点，在主流模型和数据集上实现超过2dB的PSNR提升，且无需修改模型架构或增加推理开销。这项工作为3DGS的几何重建提供了新的优化思路。

2025-06-16 23:20:35 805

原创 CVPR 2025 | 训练效率提升42%！上交&腾讯优图&浙大发布IAR：打破LLM视觉生成瓶颈

针对自回归视觉生成模型中图像与语言的根本差异问题，提出IAR改进方法。研究发现视觉编码空间中相似编码对应相近图像内容，据此设计两项创新技术：(1)基于平衡K-means的码本重排策略，确保簇内编码高度相似；(2)簇导向交叉熵损失，引导模型预测目标Token所在簇而非单一Token。实验表明，该方法显著提升生成质量和训练效率（最大提升42%），在ImageNet上取得FID 2.19、IS 362.0的SOTA效果，且可泛化至LlamaGen、VAR等多种自回归模型。该工作为统一多模态生成提供了新思路。

2025-06-15 22:57:41 839

原创视频修复黑科技！SeedVR2一步出高清，对抗训练让模糊瞬间变好莱坞级！南洋理工&字节

摘要：本文提出 SeedVR2，一种基于一步扩散模型的高效视频修复方法，通过自适应窗口注意力机制动态调整窗口大小，解决高分辨率（如1080p）修复中的窗口不一致问题。结合对抗式后训练和渐进式蒸馏策略，优化损失函数（如特征匹配损失），显著提升模型稳定性与修复质量。实验表明，SeedVR2在合成与真实场景数据上均优于现有方法，推理速度比多步扩散模型快4倍以上，兼顾高效性与细节还原能力。未来将优化模型复杂度以支持实时应用。

2025-06-15 22:53:32 997

原创首个自回归文生图风格化！StyleAR突破AI绘图新高度：单张图+提示词，完美复刻任意风格！

当前多模态自回归（AR）模型虽在视觉生成中表现优异，但在风格对齐的文本到图像生成任务中仍面临挑战。该任务需要构建“文本-图像-图像”三元组数据（包含提示词、参考风格图像和目标图像），但大规模获取这类具有特定风格的三元组数据十分困难。现有方法在训练中容易出现内容泄露问题，影响生成图像的风格一致性和语义对齐。

2025-06-09 00:38:12 905

原创图像生成里的“思维链”对决：DPO与GRPO谁主沉浮？港中文&北大等首发系统化对比研究

这项开创性研究为图像生成领域引入 RL 思维链机制提供了系统的理论与实证支撑。DPO 与 GRPO 并非简单的“优劣之分”，而是更适合于不同场景：DPO 适合在已有高质量数据基础上深度优化，追求精细化输出GRPO 则适合泛化需求高、任务分布多样的实际应用环境与此同时，研究也强调了奖励模型作为“训练导航仪”的重要性，未来在奖励模型的泛化性设计上仍有很大提升空间。

2025-06-09 00:34:18 872

原创优于所有开源和商业模型！首个图文声影四模态定制视频生成器HunyuanCustom震撼发布！

HunyuanCustom是一种创新的多模态定制视频生成框架，首次实现了图像、音频、视频和文本四模态联合驱动的视频生成，突破了传统单模态（如图像）的限制。该框架通过时序拼接和跨帧特征增强，显著提升了生成视频中主题的身份一致性，优于现有的开源和商业模型。HunyuanCustom采用了模块化条件注入机制，如AudioNet和视频Patchify对齐，实现了多模态条件的高效解耦与融合，兼顾了灵活性与性能。

2025-05-11 23:27:00 682

原创多模态与生成正迈向终极大一统！阿里最新3万字长文梳理统一的多模态理解和生成模型

本文综述了统一多模态理解与生成模型的最新进展、挑战与机遇。首先，文章介绍了多模态理解与文本生成图像模型的基础概念，并梳理了现有统一模型的三大架构范式：基于扩散的架构、基于自回归的架构，以及融合自回归与扩散机制的混合架构。随后，文章整理了适配统一模型的数据集与评测基准，为后续研究提供资源支持。文章还探讨了该领域面临的核心挑战，包括分词策略、跨模态注意力机制与数据问题。

2025-05-11 23:22:24 1306

原创重磅突破！只需一张图，一键生成沉浸式4D全景世界！HoloTime重塑VR/AR体验（北大等）

HoloTime框架提出了一种创新的方法，将静态全景图像转换为动态的4D场景，解决现有技术中沉浸体验受限、数据瓶颈和时空不一致性的问题。包括全景动画生成器和全景时空重建技术，通过两阶段运动引导生成策略和4D高斯泼溅（4D-GS）表征，实现了高质量的全景视频生成和4D场景重建。HoloTime还引入360World数据集，这是首个固定摄像机视角的全景视频综合数据集，为4D生成研究提供了重要支持。实验结果表明，HoloTime在全景视频生成质量和4D场景时空一致性方面均有显著提升，为元宇宙内容生产提供了新范式。

2025-05-08 23:51:19 1304

空空如也

空空如也