之前已经跟大家介绍过InstantID项目,只需一张图像,无需复杂的训练或微调过程即可生成高质量的个性化图像。感兴趣的小伙伴可以点击下面文章链接阅读。
AI绘画Stable Diffusion:AI写真看过来,使用InstantID插件实现AI写真
今天向大家介绍InstantID作者的新项目-InstantStyle, 相当于是一个强化版的IPapadter。一定程度解决了风格泄露的问题,同时也避免了繁琐的权重调整。
InstantStyle是一个通用框架,它采用了两种简单而有效的技术来实现从参考图像中有效地分离风格和内容。
相关链接
论文链接:https://arxiv.org/pdf/2404.02733.pdf
项目地址:https://github.com/InstantStyle/InstantStyle
论文阅读
摘要
基于调整自由扩散的模型在图像个性化和定制领域显示出巨大的潜力。然而,尽管取得了显著进展,目前的模式仍在继续努力应对制作风格一致性的几个复杂挑战图像生成。
首先,“风格”的概念本质上是不确定的,包含了多种元素,如颜色、材料、氛围、设计和结构等。其次,基于反演的方法容易出现风格退化,往往导致损失细粒度细节。最后,基于适配器的方法经常需要对每个参考图像进行细致的权重调整,以实现风格强度和文本可控性之间的平衡。
在本文中,我们从研究几个引人注目但经常被忽视的问题开始观察。然后我们介绍InstantStyle,框架,旨在通过实施两个关键来解决这些问题 策略:
-
一种直接的机制,将风格和内容与特征空间内的参考图像解耦,基于假设同一空间内的特征可以添加到或彼此相减。
-
参考图像特征的注入专门放入样式特定的块中,从而防止样式泄漏和避免了繁琐的权重调整的需要,这通常是参数较多的设计的特点。
我们的工作表现出卓越视觉风格化的结果,在风格的强度和文本元素的可控性之间取得最佳平衡。
方法
InstantStyle的IP-Adapter概述:有11个 具有SDXL的Transformer块,4个用于下采样块,1个用于中间块,6个用于上采样块。第4块和第6块分别对应于布局和样式。大多数时候,第6个块足以捕捉风格,第4个块只有在在某些情况下,布局是样式的一部分。此外,还可选择使用CLIP的特征,以明确地从特征空间中减去内容。
实验
定性结果
给定单一风格的参考图像而不同提示,作品达到高风格一致性生成。给定单一风格的参考图像和不同的提示,实现了高度风格一致性的生成
基于图像的图像样式化
采用ControlNet (Canny)来实现基于图像的风格化与空间控制。
和之前工作比较
对于基线,将方法与最近最先进的样式化方法进行比较,包括StyleAlign,Swapping Self-Attention,B-LoRA和original IP-Adapter与权重调整。对于B-LoRA,在单参考上进行训练 使用官方培训设置样式图像。
减法的效果
从最初的IP-Adapter开始,我们通过逐步增加减法的规模来系统地删除内容。当我们通过这种方法,内容泄漏的问题得到了有效的缓解。
每种策略的效果
以原始IP-Adapter为基准:
-
从图像嵌入中减去内容嵌入,减轻了内容泄漏,但是仍然需要手动调整重量。
-
只在样式块中注入图像特征表现最好。
-
在样式块和布局块中注入图像特征可以处理一些特殊的情况,其中空间构成也是一种风格。
总结
这项工作中提出一个通用框架-InstantStyle,探索了两个从参考图像中获取风格和内容的简单而有效的技术。
InstantStyle揭示了特定注意力层的特征,从ground-up已经证明,并非所有层的贡献都是相等的,这些见解可以启发后续模型的训练。适配器和LoRA方法可以从参数的减少中受益,以减轻过拟合和防止不必要的信息泄露。
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
