用户可控的统一风格迁移框架解析

用户可控的统一风格迁移框架

神经风格迁移是指使用神经网络将一幅输入图像(如名画)的风格转移到另一幅输入图像(如后院照片)的技术。研究人员提出了多种不同的风格迁移技术,但哪种方法效果最佳?这个问题没有标准答案,因为观看者的偏好各不相同。

在AAAI 2023会议上发表的一篇论文中,我们提出了一种新的风格迁移模型,该模型可以输出多个选项,用户可以通过选择模型参数来控制输出效果。研究表明,大多数现有的风格迁移方法都可以重写为我们称为"分配-混合模型"的标准形式。

分配-混合模型

该模型的"分配"步骤涉及一个分配矩阵,该矩阵将一个输入图像的特征映射到另一个输入图像的特征。论文表明,风格迁移技术之间的差异主要源于分配矩阵的熵值,即矩阵值的多样性。

对于新图像中的特定点,分配可能是风格编码中的单个向量,也可能是向量的加权组合。在第一种情况下,分配矩阵是二值的:每个矩阵项要么是0要么是1,这是最小熵分配。相比之下,如果新内容图像中的每个点都由风格图像中每个向量的加权组合组成,则分配矩阵具有更高的熵。

混合阶段

在分配步骤之后,我们进入混合阶段。在这个阶段,我们遍历新合成图像的编码,对于每个图像区域,测量其编码与原始内容示例编码之间的距离。然后按照 divergence 的程度比例混合原始内容编码中的特征向量,这确保了新图像保留原始内容。

算法优势

该过程的计算瓶颈是创建具有不同熵值的多个分配矩阵。但论文表明,Sinkhorn-Knopp算法可以应用于构建分配矩阵的问题,该算法使矩阵能够以支持高效解决方案的标准形式重写。

在实验中,该方法在保持内容输入的内容和风格输入的风格方面表现更好,并产生了更多样化的输出。人类评估研究也显示,在特定的多样性参数设置下,受试者更喜欢该方法生成的图像。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传
公众号二维码
外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值