图像编辑
文章平均质量分 90
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Open-Sora-Plan团队最新力作UniWorld-V2:图像编辑涨点神器,旧模型也能秒变SoTA!
解决的问题:当前基于指令的图像编辑模型通常依赖于监督微调训练,这导致模型在标注模式上过拟合,限制了它们在训练分布之外的探索和泛化能力。此外,编辑指令和任务的多样性使得缺乏通用的奖励模型。提出的方案:引入Edit-R1框架,该框架基于策略优化,结合了扩散负面感知微调(DiffusionNFT)和多模态大语言模型(MLLM),以提供免训练的奖励机制,帮助解决模型在不同指令环境下的泛化问题。应用的技术。原创 2025-12-16 13:56:35 · 720 阅读 · 0 评论 -
视频模型降维打击?浙大&哈佛提出 IF-Edit:无需训练,用“生成视频”的思路修图!
IF-Edit 给我们提供了一个全新的视角:图像编辑不仅仅是 Image-to-Image 的翻译,更可以是 Image-to-Video-to-Image 的世界模拟。通过复用强大的视频生成模型,我们无需收集昂贵的成对编辑数据,就能实现懂物理、懂因果的 Zero-Shot 图像编辑。随着视频模型(如 Sora, Wan, HunyuanVideo)的不断进化,这种“降维打击”式的修图方法或许会成为未来的主流。原创 2025-12-16 13:52:48 · 884 阅读 · 0 评论 -
北航&美团等最新EditThinker:给AI修图装上“大脑”,Flux、OmniGen2瞬间智商暴涨!
EditThinker,使图像编辑模型能够在编辑时“思考”,解决了现有单轮方法中由于固有的随机性和缺乏深思熟虑而导致的指令遵循能力有限的问题。本文的框架通过模拟迭代的“批判-改进-重复”循环来模仿人类的认知过程,从而实现自我纠正的图像编辑。通过将 EditThinker 训练为一个统一的多模态大语言模型 (MLLM),它能够联合生成批判分数、详细推理过程和改进后的指令。原创 2025-12-11 07:17:32 · 850 阅读 · 0 评论 -
图像生成开源界又出“王炸”!南洋理工&阶跃星辰发布iMontage:解锁“多对多”生成新玩法!
摘要 iMontage提出了一种统一的多对多图像生成框架,能够处理可变数量的输入/输出帧,弥合了视频生成与高动态图像生成之间的鸿沟。该模型基于预训练视频骨干网络,通过低侵入式适配策略和任务无关的时序多样化数据管道,结合多任务训练范式,实现了跨异构任务的强大泛化能力。实验表明,iMontage在图像编辑、多条件生成、多视图合成等任务中性能卓越,部分效果媲美商业模型。其核心创新包括:1)混合多模态扩散Transformer架构;2)可分离时间RoPE的位置编码策略;3)分阶段课程训练方案。原创 2025-12-01 13:10:54 · 1770 阅读 · 0 评论 -
从平面走向3D!中科大提出Pro3D-Editor,渐进式3D编辑新范式实现三维全视角精准一致
本文提出Pro3D-Editor框架,通过渐进式视图编辑范式解决多视图3D编辑中的特征不一致问题。该方法分为三个阶段:主视图采样筛选编辑显著视图,关键视图渲染通过MoVE-LoRA实现跨视图一致性编辑,全局视图细化完成3D物体迭代优化。实验表明,Pro3D-Editor在编辑质量(LPIPS提升47.4%)和准确性(DINO-I提升9.7%)上显著优于基线方法,支持精准的局部编辑。代码及项目已开源。原创 2025-11-25 23:44:57 · 642 阅读 · 0 评论 -
硬刚GPT-Image-1?苹果最新UniGen-1.5强势发布:一个模型搞定理解+生成+编辑!
UniGen-1.5创新性地构建了统一多模态大模型,通过共享奖励模型的强化学习框架协同优化图像生成与编辑任务。研究采用Qwen2.5-7B为基础架构,集成离散视觉分词器MAGViTv2和连续视觉编码器SigLIP2,实现384×384分辨率的图像处理。关键创新包括:1)编辑指令对齐机制提升指令理解能力;2)统一强化学习策略联合优化双任务;3)共享奖励模型设计。实验表明,该模型在GenEval(0.89)、DPG-Bench(86.83)和ImgEdit(4.31)等基准测试中均达到领先水平。原创 2025-11-24 22:24:32 · 856 阅读 · 0 评论 -
史诗级突破!一个模型让你秒变PS大神,字节最新InstructX仅用“看图”就学会了剪视频
InstructX是一个创新的多模态框架,通过深度融合多模态大语言模型(MLLM)与扩散模型,实现了图像和视频编辑任务的统一处理。该研究系统分析了MLLM与扩散模型的集成方案,提出采用可学习查询、MLLM LoRA和MLP连接器的组合设计,显著提升了模型收敛速度和编辑性能。通过混合图像-视频训练策略,InstructX仅用图像数据就实现了零样本视频编辑能力,突破了高质量视频数据稀缺的限制。实验表明,该方法在图像和视频编辑任务中均达到SOTA水平,性能可媲美部分闭源商业系统。原创 2025-10-13 12:54:51 · 867 阅读 · 0 评论 -
LucidFlux-14B | 最新通用图形修复大模型:效果超越闭源付费商业模型!
LucidFlux-14B是首个开源通用图像修复大模型,采用Diffusion Transformer架构,在多个任务上超越商业模型。它创新性地设计了双分支调控器(DBC)和时序层级自适应调制(TLCM),通过轻量复原代理和退化图像互补提升细节恢复能力,并采用SigLIP代替文本caption实现语义对齐。配合34.2万张严格筛选的高质量训练数据,模型在视觉质量和指标上全面领先。实验显示,LucidFlux在细节恢复和语义一致性上显著优于主流开源和商业方案,为图像修复提供了新范式。原创 2025-10-12 09:07:35 · 731 阅读 · 0 评论 -
图文双指令开智能创作新纪元!DreamOmni2实现“意念级”P图,文字图片都是你的画笔!
摘要: DreamOmni2提出了基于多模态指令的图像编辑和生成新任务,支持文本与图像指令结合,涵盖具体物体和抽象概念。通过三阶段数据合成流程,构建了高质量训练数据集。框架创新包括索引编码与位置编码偏移方案,以处理多参考图像输入,并通过联合视觉语言模型(VLM)增强复杂指令理解能力。实验表明,DreamOmni2在真实场景中优于现有开源模型,性能接近商业方案(如GPT-4o),尤其在抽象属性生成和编辑一致性上表现突出。原创 2025-10-12 09:03:16 · 596 阅读 · 0 评论 -
ICCV 2025 | 描述替代指令:南大联合vivo发布DescriptiveEdit,定义语义图像编辑新范式
本文提出DescriptiveEdit框架,创新性地采用描述(description)而非指令(instruction)引导图像编辑。通过AttentionBridge实现参考图控制,结合零初始化线性层自适应融合特征,有效解决传统方法在结构保真与语义编辑间的冲突。实验表明,该方法在EmuEdit测试集上多项指标领先,支持全局/局部编辑,且兼容ControlNet等扩展模型。核心突破在于:1)摆脱指令数据依赖,直接利用T2I模型能力;2)通过双系数调节实现编辑幅度灵活控制;3)保持原始架构兼容性。原创 2025-09-10 07:50:45 · 979 阅读 · 0 评论 -
ICCV`25 | 把DragDiffusion“卷”哭了:速度快600倍,效果更精准!港大开源Inpaint4Drag
摘要: Inpaint4Drag提出了一种基于拖动的图像编辑框架,通过双向扭曲算法和图像修复分离实现高效高精度编辑。该方法将图像区域视为弹性材料,结合前向扭曲(定义初始变形)与后向映射(填补间隙),生成密集像素对应关系,支持实时预览(0.01秒)。用户通过控制点和掩码指定变形区域,可选SAM掩码细化模块提升边界精度。修复阶段兼容任意修复模型(如Stable Diffusion),处理显露区域。实验表明,其在DragBench基准上较现有方法快14-600倍,MD误差降低至3.6,内存占用仅2.7GB。原创 2025-09-09 07:39:14 · 1108 阅读 · 0 评论 -
自回归新王登基!NextStep-1强势登场,图像生成SOTA达成!高保真+强编辑,太能打了!
NextStep-1:连续图像流匹配自回归架构的突破 本文提出NextStep-1,一种创新的自回归模型,通过轻量级流匹配头(157M参数)实现高质量patch-by-patch图像生成,摆脱传统扩散模型依赖。核心创新包括: 统一多模态框架:结合14B参数的自回归主干,同时处理离散文本和连续图像token,避免量化损失。 高维隐空间稳定技术:通过通道归一化与随机扰动tokenizer设计,支持16通道稳定训练,消除伪影。原创 2025-08-18 10:55:24 · 799 阅读 · 0 评论 -
动脑就能P图!LoongX重磅突破:首个「脑波+AI」图像编辑系统诞生,意念修图不是梦!
摘要: 本文提出LoongX框架,利用多模态神经信号(EEG、fNIRS、PPG、动作及语音)驱动免手图像编辑,解决了传统文本提示的交互局限。通过跨尺度状态空间(CS3)编码器和动态门控融合(DGF)模块,LoongX高效提取并融合多模态特征,结合扩散模型(DiT)实现语义对齐。原创 2025-07-22 22:33:49 · 1041 阅读 · 0 评论 -
五一长假冲上HuggingFace榜第二,仅次于Qwen3!浙大哈佛「全能LoRA」杀疯了
精度与效率的权衡问题现有基于微调的方法(Fine-tuning)需要大量计算资源和数据集,效率低。免训练方法(Training-free)在指令理解和编辑质量上表现不佳,精度不足。指令理解与编辑质量不足免训练方法难以准确解析复杂指令,导致编辑效果不理想。微调方法依赖大规模数据训练(如 450K~10M 样本),计算成本高。初始噪声选择影响编辑质量不同的初始噪声会导致不同的编辑效果,如何优化噪声选择以提高输出质量是关键挑战。原创 2025-05-07 22:44:33 · 977 阅读 · 0 评论 -
只需一张图,万物皆可插!Insert Anything开源啦!开创AI图像插入新时代|浙大&哈佛等
任务局限性:现有方法仅针对特定任务(如人物插入、服装插入),缺乏通用性。控制模式单一:依赖固定控制方式(仅掩码或仅文本引导),灵活性不足。视觉-参考不协调:插入内容与目标场景风格不一致,或丢失参考图像的细节特征。原创 2025-04-24 22:24:09 · 903 阅读 · 0 评论 -
突破传统“非此即彼”,真灵魂P图!腾讯最新FlexIP黑科技:身份保持和个性化我都要!
身份保持与编辑灵活性的固有矛盾:现有方法在生成模型中难以同时实现高保真身份保持和多样化个性化编辑,通常需要在两者之间做出权衡。跨模态对齐不足:传统零样本方法依赖视觉-语言对齐模块(如Q-former),导致图像生成任务中视觉与文本信息未能有效协同,影响身份保持和编辑效果。控制粒度不足:现有方法通过单一参数调整身份保持强度时,往往产生突变效果,缺乏连续、精细的控制能力。原创 2025-04-13 10:10:24 · 840 阅读 · 0 评论 -
图像编辑进入“精修时代”!“指哪改哪”!北交&美图发布DCEdit:改图不伤背景的终极方案
文本引导图像编辑任务面临的关键挑战是精确定位和编辑目标语义,而以往的方法在这方面存在不足。原创 2025-04-12 08:57:27 · 1146 阅读 · 0 评论 -
即插即用,无缝集成各种模型,港科大&蚂蚁等发布Edicho:图像编辑一致性最新成果!
解决的问题跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。提出的方案本文提出了一种基于扩散模型的训练无关解决方案Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。原创 2025-01-09 22:18:56 · 936 阅读 · 0 评论 -
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
解决的问题多模态大语言模型(MLLMs)在支持多任务方面缺乏统一性,特别是图像和视频的联合处理能力不足。模型在细粒度像素级理解上存在局限,无法实现高精度的视觉区域定位与编辑。视觉功能单一,难以支持从视觉理解到生成、分割、编辑等全方位任务。多任务间存在协作性不足,任务间可能互相影响,难以实现统一优化。**提出的方案 **统一架构设计:VITRON 采用基于 LLM 的框架,前端集成图像、视频和像素级区域视觉编码器,后端结合最先进的图像与视频模块,支持视觉理解、生成、分割和编辑等多任务。原创 2025-01-02 22:31:05 · 3432 阅读 · 0 评论 -
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了
解决的问题当前基于扩散模型的图像编辑方法存在两大问题:基于反演(inversion)的方法在进行大幅度修改(如添加或移除物体)时效果较差,原因在于反演噪声的结构性限制了编辑的灵活性。基于指令(instruction)的方法通常采用黑箱操作,限制了用户直接指定编辑区域和强度的能力。提出的方案提出了一种新的图像编辑范式BrushEdit,基于图像修复(inpainting)和指令引导,结合多模态大语言模型(MLLMs)和双分支图像修复模型,构建了一个代理协作框架,实现:编辑类别分类。原创 2024-12-25 22:31:24 · 1056 阅读 · 0 评论 -
图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni:训练收敛速度快且性能强大
文生图遇到了一些挑战:将这些模型适应到下游应用通常需要以不同的方式集成各种插件(如ControlNet和IP-adapter),或扩展输入通道(例如,SD-inpainting 、InstructP2P)。这种对专门化框架的依赖限制了多任务泛化能力,并增加了部署的复杂性。高质量和准确的编辑数据难以获得,包括基于指令的编辑、拖拽编辑和主题驱动的生成数据。原创 2024-12-25 22:27:04 · 1681 阅读 · 0 评论 -
释放你的想象!支持25种复杂编辑类型!浙大等提出AnyEdit:统一高质量图像编辑框架
现有模型难以准确执行复杂的用户指令:由于训练数据质量较低且编辑类型有限,现有的指令驱动的图像编辑模型在处理复杂用户指令时存在困难。缺乏高质量的指令编辑数据集:现有的编辑数据集数据质量不足,且难以支持基于多模态感知和复杂指令的图像编辑任务,如空间构图、视角变化和常识理解等。当前数据集在多种输入格式和编辑需求上的适应性差:现有数据集缺乏对不同编辑任务的适配,导致编辑结果质量差,且生成的图像常存在低分辨率、高噪声或与文本不对齐的问题。原创 2024-12-23 22:14:04 · 1638 阅读 · 0 评论 -
抛弃UNet,首个基于DiT的图像编辑框架!DiT4Edit:多尺寸编辑质量更优 | 北大&港科大
解决的问题现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足。相比之下,Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖关系,但目前在图像编辑领域的应用仍较少。提出的方案本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法来获取反演隐变量,与传统UNet框架常用的DDIM反演算法相比,显著减少了迭代步数。原创 2024-11-12 08:10:41 · 1211 阅读 · 0 评论 -
灵活精确可控编辑!Dice:首个离散扩散模型精确反演方法!
解决的问题离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。提出的方案提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。应用的技术。原创 2024-10-25 08:42:21 · 1383 阅读 · 0 评论 -
2万字长文看透基于扩散模型的图像编辑理论和实践!(中科院&南科大&苹果&Adobe)
如何利用去噪扩散模型进行高质量的图像生成和编辑。系统地分类和评估扩散模型在图像编辑中的应用。原创 2024-10-24 21:36:56 · 1579 阅读 · 0 评论 -
首篇!全面系统解读高效SAM变体:各种加速策略和核心技术展示
是图像分割领域中的一个强大基础模型,旨在通过基本的可提示分割任务,利用提示工程来统一各种分割任务。该项目的一个显著贡献是 SA-1B 数据集,该数据集包含来自 1100 万张经过许可和隐私保护的图像生成的超过 10 亿个masks。在如此丰富和高质量的数据上进行训练,SAM 展现出强大的鲁棒性和泛化能力。SAM 的巨大潜力迅速引起了研究人员对探索其在广泛现实应用中的能力以及改进其架构以实现更高效或更准确分割的兴趣。最近,被提出作为继任者,专注于高效的可提示视觉分割 (PVS),适用于图像和视频。原创 2024-10-14 08:49:38 · 2827 阅读 · 0 评论 -
长动画上色质量再创新高!首个基于参考线稿的动画上色视频扩散框架LVCD发布
文章链接:https://arxiv.org/pdf/2409.12960项目链接:https://luckyhzt.github.io/lvcd。原创 2024-10-12 08:55:08 · 1060 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-10-09 21:43:35 · 1068 阅读 · 0 评论 -
视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!
图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。原创 2024-10-09 21:37:43 · 1753 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-09-28 10:46:29 · 926 阅读 · 0 评论 -
ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法!华科&Adobe提出WAS!
文章链接:https://arxiv.org/pdf/2408.00106git链接:https://github.com/xdxie/WAS_WordArt-Segmentation提出了艺术文本分割这一新任务,并构建了一个真实数据集用于模型性能基准测试。设计了训练数据合成策略,生成了包含10万对图像-mask 的合成数据集。引入了逐层动量查询机制和骨架辅助头,以应对局部笔画的变化和全局结构的复杂性。在艺术文本分割和场景文本分割任务中取得了最先进(SOTA)的成果,并简化了文本分割的实验范式。原创 2024-08-25 08:53:33 · 1133 阅读 · 0 评论 -
ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
论文链接: https://arxiv.org/pdf/2408.08332git地址:https://betterze.github.io/TurboEdit/提出一个反演网络,该网络通过预测噪声来重建输入图像,并被训练为在前一步重建的条件下迭代地校正重建图像。对扩散蒸馏过程的一种新兴特性进行分析。方法在反演过程中只需要 8 次功能评估(一次性成本),每次编辑只需 4 次功能评估,而基于多步扩散模型的方法在反演中需要 50 次功能评估,每次编辑需要 30-50 次功能评估。原创 2024-08-22 09:14:26 · 1116 阅读 · 0 评论
分享