AI精准编辑门槛大降：开源框架提升编辑一致性，即插即用

转载于 2026-01-08 19:00:57 发布 · 13 阅读

·

0

·

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247860588&idx=3&sn=ba76c1efecd8bebb2a46a2563b789818&chksm=e9326d6c4859c0bb43f2a125d56182b82592afc547aac3b3d74076515e3f734d351b85543c63&scene=126&sessionid=0

文章标签：

#人工智能 #计算机视觉

ProEdit团队投稿
量子位 | 公众号 QbitAI

想给照片里的猫换个颜色，结果总是编辑失败？想让视频里的人换件衣服，人脸却糊成一片或完全改变？

在AI视觉编辑领域，如何在修改目标属性的同时，精准保留背景和非编辑属性的一致性，一直是个“鱼和熊掌”的难题。

近日，来自中山大学iSEE实验室、香港中文大学MM Lab、新加坡南洋理工大学、香港大学的研究团队发布了最新研究成果ProEdit。

该方法通过对注意力机制和初始噪声潜在分布的“精准手术”，实现了超高精度的图像与视频编辑，且完全无需训练、即插即用。

△ 图1. ProEdit在图像和视频编辑上与现有方法的对比

为什么AI编辑总是“改不动”？

目前，基于反演（Inversion-based）的编辑方法（如RF-Solver、FireFlow）通常采用全局注入策略：为了保持背景尽量一致，它们会将原图的大量信息强行“塞”进生成过程。

但研究团队通过文本与图像的注意力可视化发现，这种做法存在严重的“源图像信息过度注入”问题：

注意力过度注入：
现有方法通过全局注入了过多的源图像注意力特征，导致模型更听源图像的话，而忽略了用户的编辑指令（Prompt）。
潜在空间锁死：
反演后的初始噪声中残留了太强的源图像分布信息，使得模型倾向于“重建”原图，而不是“编辑”新图。

结果就是：现有方法下，你想把“橙色猫”改写成“黑色猫”，AI可能还是给你一只橙色猫。而去除源图像注意力注入机制，又难以保持背景和非编辑属性的一致性。

△ 图2. 现有方法与去除注意力注入下的注意力可视化与编辑效果

ProEdit两把精准的“手术刀”

为了破解上述难题，ProEdit提出了两个核心模块，从两个维度消除源图像信息的干扰：

△ 图3. ProEdit方法概览。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。