
图像编辑
文章平均质量分 91
AI生成未来
领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等人工智能领域前沿技术。更多精彩内容,请关注公众号:AI生成未来
展开
-
即插即用,无缝集成各种模型,港科大&蚂蚁等发布Edicho:图像编辑一致性最新成果!
解决的问题跨图像一致性编辑是计算机视觉和图像处理领域中的重要挑战,尤其是面对多样的姿态、光照条件和拍摄环境时。这种一致性编辑广泛应用于产品展示、个性化内容创作以及主题活动等场景。然而,现有方法在处理多图像一致性时常表现出不稳定性或失真,难以满足实际需求。提出的方案本文提出了一种基于扩散模型的训练无关解决方案Edicho。其核心设计理念是通过显式图像对应性引导编辑过程,避免传统隐式对应性方法的局限性。注意力操作模块:增强注意力机制,通过图像之间的对应性引导特征传递。原创 2025-01-09 22:18:56 · 828 阅读 · 0 评论 -
NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一(昆仑万维等)
解决的问题多模态大语言模型(MLLMs)在支持多任务方面缺乏统一性,特别是图像和视频的联合处理能力不足。模型在细粒度像素级理解上存在局限,无法实现高精度的视觉区域定位与编辑。视觉功能单一,难以支持从视觉理解到生成、分割、编辑等全方位任务。多任务间存在协作性不足,任务间可能互相影响,难以实现统一优化。**提出的方案 **统一架构设计:VITRON 采用基于 LLM 的框架,前端集成图像、视频和像素级区域视觉编码器,后端结合最先进的图像与视频模块,支持视觉理解、生成、分割和编辑等多任务。原创 2025-01-02 22:31:05 · 2806 阅读 · 0 评论 -
图像修复和编辑大一统 | 腾讯&北大等联合提出BrushEdit:BrushNet进阶版来了
解决的问题当前基于扩散模型的图像编辑方法存在两大问题:基于反演(inversion)的方法在进行大幅度修改(如添加或移除物体)时效果较差,原因在于反演噪声的结构性限制了编辑的灵活性。基于指令(instruction)的方法通常采用黑箱操作,限制了用户直接指定编辑区域和强度的能力。提出的方案提出了一种新的图像编辑范式BrushEdit,基于图像修复(inpainting)和指令引导,结合多模态大语言模型(MLLMs)和双分支图像修复模型,构建了一个代理协作框架,实现:编辑类别分类。原创 2024-12-25 22:31:24 · 870 阅读 · 0 评论 -
图像生成与各种编辑任务大一统!贾佳亚团队提出DreamOmni:训练收敛速度快且性能强大
文生图遇到了一些挑战:将这些模型适应到下游应用通常需要以不同的方式集成各种插件(如ControlNet和IP-adapter),或扩展输入通道(例如,SD-inpainting 、InstructP2P)。这种对专门化框架的依赖限制了多任务泛化能力,并增加了部署的复杂性。高质量和准确的编辑数据难以获得,包括基于指令的编辑、拖拽编辑和主题驱动的生成数据。原创 2024-12-25 22:27:04 · 1263 阅读 · 0 评论 -
释放你的想象!支持25种复杂编辑类型!浙大等提出AnyEdit:统一高质量图像编辑框架
现有模型难以准确执行复杂的用户指令:由于训练数据质量较低且编辑类型有限,现有的指令驱动的图像编辑模型在处理复杂用户指令时存在困难。缺乏高质量的指令编辑数据集:现有的编辑数据集数据质量不足,且难以支持基于多模态感知和复杂指令的图像编辑任务,如空间构图、视角变化和常识理解等。当前数据集在多种输入格式和编辑需求上的适应性差:现有数据集缺乏对不同编辑任务的适配,导致编辑结果质量差,且生成的图像常存在低分辨率、高噪声或与文本不对齐的问题。原创 2024-12-23 22:14:04 · 1241 阅读 · 0 评论 -
抛弃UNet,首个基于DiT的图像编辑框架!DiT4Edit:多尺寸编辑质量更优 | 北大&港科大
解决的问题现有的基于UNet的高分辨率图像编辑方法在实现形状感知的对象编辑方面仍存在不足。相比之下,Diffusion Transformers (DiT) 能更有效地捕捉图像块之间的长程依赖关系,但目前在图像编辑领域的应用仍较少。提出的方案本文提出了基于Diffusion Transformers的首个图像编辑框架——DiT4Edit。DiT4Edit采用DPM-Solver反演算法来获取反演隐变量,与传统UNet框架常用的DDIM反演算法相比,显著减少了迭代步数。原创 2024-11-12 08:10:41 · 962 阅读 · 0 评论 -
灵活精确可控编辑!Dice:首个离散扩散模型精确反演方法!
解决的问题离散扩散模型虽然在图像生成和mask语言建模等任务中取得了成功,但在精确控制内容编辑方面存在局限性。当前方法无法实现对离散数据的灵活编辑和准确重构。提出的方案提出了DICE(可控编辑的离散反演),这是首个针对离散扩散模型(包括多项扩散和mask生成模型)的精确反演方法。DICE通过记录在反向扩散过程中的噪声序列和mask模式,实现了无需预定义mask或注意力操作的精确重构和灵活编辑。应用的技术。原创 2024-10-25 08:42:21 · 1166 阅读 · 0 评论 -
2万字长文看透基于扩散模型的图像编辑理论和实践!(中科院&南科大&苹果&Adobe)
如何利用去噪扩散模型进行高质量的图像生成和编辑。系统地分类和评估扩散模型在图像编辑中的应用。原创 2024-10-24 21:36:56 · 1265 阅读 · 0 评论 -
首篇!全面系统解读高效SAM变体:各种加速策略和核心技术展示
是图像分割领域中的一个强大基础模型,旨在通过基本的可提示分割任务,利用提示工程来统一各种分割任务。该项目的一个显著贡献是 SA-1B 数据集,该数据集包含来自 1100 万张经过许可和隐私保护的图像生成的超过 10 亿个masks。在如此丰富和高质量的数据上进行训练,SAM 展现出强大的鲁棒性和泛化能力。SAM 的巨大潜力迅速引起了研究人员对探索其在广泛现实应用中的能力以及改进其架构以实现更高效或更准确分割的兴趣。最近,被提出作为继任者,专注于高效的可提示视觉分割 (PVS),适用于图像和视频。原创 2024-10-14 08:49:38 · 2054 阅读 · 0 评论 -
长动画上色质量再创新高!首个基于参考线稿的动画上色视频扩散框架LVCD发布
文章链接:https://arxiv.org/pdf/2409.12960项目链接:https://luckyhzt.github.io/lvcd。原创 2024-10-12 08:55:08 · 837 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-10-09 21:43:35 · 939 阅读 · 0 评论 -
视觉任务大一统!图像生成,编辑,翻译三合一!全能视觉助手PixWizard来袭!
图像生成、操作和转换的复杂性,特别是基于自由形式语言指令的多种视觉任务。原创 2024-10-09 21:37:43 · 1619 阅读 · 0 评论 -
ECCV`24 | 高保真目标修复新SOTA!复旦&智象开源CAT-Diffusion,语义视觉双一致
解决的问题单一U-Net在所有去噪步骤中对齐文本提示和视觉对象不足以生成期望的对象。扩散模型的复杂采样空间中无法保证对对象生成的可控性。提出的方案语义预修复:在多模态特征空间中推理目标对象的语义特征。高保真度的对象生成:在扩散的潜在空间中基于已修复的语义特征生成目标对象。应用的技术采用级联的Transformer语义修复器与目标修复扩散模型,提出了新型的Cascaded Transformer-Diffusion(CAT-Diffusion)框架。原创 2024-09-28 10:46:29 · 810 阅读 · 0 评论 -
ECCV`24 | 艺术文本和场景文本分割任务新SOTA 方法!华科&Adobe提出WAS!
文章链接:https://arxiv.org/pdf/2408.00106git链接:https://github.com/xdxie/WAS_WordArt-Segmentation提出了艺术文本分割这一新任务,并构建了一个真实数据集用于模型性能基准测试。设计了训练数据合成策略,生成了包含10万对图像-mask 的合成数据集。引入了逐层动量查询机制和骨架辅助头,以应对局部笔画的变化和全局结构的复杂性。在艺术文本分割和场景文本分割任务中取得了最先进(SOTA)的成果,并简化了文本分割的实验范式。原创 2024-08-25 08:53:33 · 911 阅读 · 0 评论 -
ECCV`24 | 少步比多步好?TurboEdit:少步扩散和解耦控制的实时精确图像编辑(Adobe出品)
论文链接: https://arxiv.org/pdf/2408.08332git地址:https://betterze.github.io/TurboEdit/提出一个反演网络,该网络通过预测噪声来重建输入图像,并被训练为在前一步重建的条件下迭代地校正重建图像。对扩散蒸馏过程的一种新兴特性进行分析。方法在反演过程中只需要 8 次功能评估(一次性成本),每次编辑只需 4 次功能评估,而基于多步扩散模型的方法在反演中需要 50 次功能评估,每次编辑需要 30-50 次功能评估。原创 2024-08-22 09:14:26 · 1017 阅读 · 0 评论