Step1X-Edit:先进图像编辑框架缩小开源与闭源模型性能差距
【免费下载链接】Step1X-Edit 项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit
全文摘要
近年来,图像编辑技术进步显著,多模态模型如GPT-4o和Gemini2 Flash展现出强大的图像编辑能力。然而,开源算法与闭源模型存在较大性能差距。本文提出先进的图像编辑框架Step1X-Edit,结合多模态大语言模型(MLLM)和扩散架构解码器,处理参考图像与用户编辑指令,通过提取潜在嵌入并整合到扩散图像解码器生成目标图像。为训练模型,构建了超100万张高分辨率图像及对应编辑指令的高质量数据生成管道。同时开发了GEdit-Bench新基准,用于评估真实世界图像编辑任务。实验表明,Step1X-Edit显著优于现有开源基线,接近顶级专有模型性能。主要贡献包括开源Step1X-Edit模型缩小性能差距、设计高效数据生成管道提供高质量数据集、引入GEdit-Bench基准支持更真实全面评估。
论文方法
模型组件与流程
Step1X-Edit主要由多媒体大型语言模型(MLLM)、连接器模块和扩散在Transformer(DiT)组成。输入编辑指令和参考图片至MLLM,如Qwen-VL模型,经前向传播捕捉语义关系。利用连接器模块如Token Refiner,将嵌入重构成紧凑文本特征表示,作为下游DiT网络的文本嵌入。通过对Qwen模型增强的语义理解能力计算全局视觉指导向量,使图像编辑网络准确执行编辑操作。
训练策略
训练中借鉴FLUX-Fill的token连接机制,增强模型对对比视觉上下文推理能力。初始化连接器和下游DiT网络预训练权重,提高收敛速度和性能转移效果。
与传统方法对比
与传统基于卷积神经网络或注意力机制的图像编辑方法不同,本文方法结合多媒体大型语言模型和连接器模块,强化了对编辑指令的理解及对视觉信息的抽象表达能力,且借鉴token连接机制进一步增强了对比视觉上下文推理能力。
解决的问题
能够实现高保真度、语义对齐的图像编辑操作,解决传统方法在复杂场景和多样化编辑需求下的局限性与不准确性问题。
论文实验
数据集收集
收集新基准测试集GEdit(Bench),包含超1000个真实用户编辑实例,手动分为11类,可全面了解现有编辑算法是否满足实际应用需求。
算法评估
对多种图像编辑算法进行评估,包括开源的Instruct-Pix2Pix、MagicBrush、AnyEdit等,以及专有的GPT-4o、douba、Gemini2Flash等。采用VIE-Score评估指标,包括Semantic Consistency(语义一致性)、Perceptual Quality(感知质量)和Overall Score(总分)。
实验结果
在GEdit-Bench数据集上,使用SQ(语义一致性)、PQ(感知质量)和O(总体评分)三个指标评估。Step1X-Edit在English指令的Intersection子集上获SQ=7.183、PQ=6.818、O=6.813,Full集上获SQ=7.380、PQ=7.229、O=7.161;在Chinese指令的Intersection子集上获SQ=7.250、PQ=6.855、O=6.898,Full集上获SQ=7.282、PQ=7.303、O=7.232。用户研究中,用户偏好得分为UP-IS=6.544和UP-Full=6.939。例如,在交集子集中,Step1X-Edit取得最高平均分数,超过其他所有算法;在中文指令下表现优异,甚至优于Doubao和Gemini2。用户偏好研究结果表明,其编辑结果获与Gemini2 Flash相当的高度评价,因Gemini2 Flash强大的身份保留能力受参与者喜欢。
论文总结
文章优点
提出新的通用图像编辑算法Step1X-Edit,开发大规模高质量数据集训练模型,该数据集超一百万个高质量图像编辑三元组,涵盖对象操纵、属性修改、布局调整和风格化等多种编辑任务类别。采用多媒体大型语言模型(MMI)与扩散式图像解码器结合的方法,有效处理自然语言指令并生成高质量编辑结果。开发GEdit-Bench新基准,评估现有图像编辑模型在实际应用场景中的性能表现。
方法创新点
主要贡献为提出新的图像编辑算法Step1X-Edit和大规模高质量数据集。Step1X-Edit结合多媒体大型语言模型与扩散式图像解码器,处理自然语言指令并生成高质量编辑结果。开发GEdit-Bench基准,评估实际应用场景中模型性能,具有较高实用性和应用价值。
未来展望
随着深度学习技术发展,图像编辑领域机会增多。未来研究可探索提高图像编辑算法效率和准确性,满足用户需求,还可考虑与计算机视觉、自然语言处理等领域技术结合,实现更智能化应用场景。
【免费下载链接】Step1X-Edit 项目地址: https://ai.gitcode.com/StepFun/Step1X-Edit
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



