CV技术指南 | ICCV 2025 | Converse2D | 即插即用 | 卷积真正的逆 | 在图像恢复中的逆卷积

本文来源公众号“CV技术指南”,仅用于学术分享,侵权删,干货满满。

原文链接:ICCV 2025 | Converse2D | 即插即用 | 卷积真正的逆 | 在图像恢复中的逆卷积

前言 本文将逆卷积过程转为求解正则化最小二乘优化问题,引入正则化解决问题的不适定性,通过构建维纳滤波模型引入频域通过圆形边界条件求封闭解。

论文题目:Reverse Convolution and Its Applications to Image Restoration

论文链接:https://arxiv.org/pdf/2508.09824 

论文源码:https://github.com/cszn/ConverseNet

文章类型结构创新型。

具体分类:卷积算子创新。

前置知识:卷积,反卷积,维纳滤波(Wiener Filter),最小二乘问题求解,正则化。

Motivation:下采样会造成信息丢失,卷积的逆问题又具有不适定性,为了创新卷积算子,找到卷积真正的逆运算

Method

  • 卷积a、反卷积b、逆卷积c示意图。标准卷积和转置卷积将核应用于输入,但反向卷积将核应用于输出来重建输入。

    图片

  • 正向卷积过程:

    图片

  • 目的是求解X,转化为最小二乘问题:

    图片

  • 但问题具有不适定性,直接求解上述方程会导致不稳定的解。于是添加二次正则化项:

    图片

  • 根据源码,X0由最近邻插值计算,控制权重参数由如下公式计算:

    图片

  • 在卷积的圆形边界条件的假设下得到X的闭式解:

    图片

简化为(维纳滤波(Wiener Filter) 的频域形式,用于从降质观测信号中恢复真实信号):

图片

  • F是快速傅里叶变换;

  • FK:降质核(点扩散函数,PSF) 的傅里叶变换(即光学传递函数,OTF);

  • FY是观测信号(降质图像) 的傅里叶变换;

  • FX0(插值后的低分辨率图像) 的傅里叶变换;

  • FK_bar:FK的共轭(频域逆操作的核心);

  • 算法流程:

    图片

  • Converse2D一些细节:

  • 模糊核K:在预处理过程中对K应用Softmax归一化,以强制非负性和求和为一的约束;

  • padding:模式为圆形填充(circular),填充大小为4×4最优;

  • X0初始化:零初始化不如插值初始化

  • Converse2D  Block:在新算子的基础上提出一个Trans-style Block,Converse2D可以增强中间特征

    图片

  • 用Converse Block构建三种任务的网络:

    图片

Experiment

去噪:Converse2d替代传统卷积核反卷积都有提升

图片

超分:替换卷积和上采样性能近似

图片

去模糊:去模糊任务不同的模糊核提升都很明显

图片

总结与思考

  • Converse2d是寻找真正的卷积逆运算的一次探索尝试,这样基础算子研究应该被予以重视和尊重;

  • Converse2d在去模糊任务上提升明显,去噪有提升,超分几乎一致;

  • Converse2d是一个即插即用的架构,它适用于中间特征通道数不变的位置来增强特征(图2以及源码中的输入输出通道数相同的断言);

参考文献Bib格式

@inproceedings{huang2025reverse,

    title={Reverse Convolution and Its Applications to Image Restoration},

    author={Huang, Xuhong and Liu, Shiqi and Zhang, Kai and Tai, Ying and Yang, Jian and Zeng, Hui and Zhang, Lei},

    booktitle={International Conference on Computer Vision},

    pages={1--10},

    year={2025}

}

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

### 使用Swin Transformer进行图像修复的技术 #### 背景介绍 Swin Transformer作为一种强大的多模态融合工具,在处理复杂视觉任务方面表现出色[^1]。其独特的分层结构和移位窗口机制使得它能够有效地捕捉局部特征并建立远程依赖关系,这为图像修复提供了坚实的基础。 #### 方法概述 为了利用Swin Transformer执行图像修复工作,主要流程如下: - **输入准备** 对于待修复的图片,先将其转换成适合送入Transformer模型的数据形式。如果存在已知损坏区域,则可以通过遮罩(mask)标记出来作为辅助信息一同传递给网络学习。 - **编码过程** 利用Swin Transformer特有的层次化设计,逐步提取不同尺度下的空间特征表示。每一阶段都会经历若干次自注意力计算以及线性投影操作,从而形成丰富的语义描述向量序列。 - **解码重建** 经过上述编码器部分之后得到的一系列隐含状态会被反向映射回原始像素空间内完成最终输出预测。期间可能还会加入跳跃连接(skip connection),以便更好地保留细粒度纹理细节。 ```python import torch.nn as nn from timm.models.layers import DropPath, to_2tuple, trunc_normal_ class Mlp(nn.Module): """ Multilayer Perceptron """ def __init__(self, in_features, hidden_features=None, out_features=None, act_layer=nn.GELU, drop=0.): super().__init__() ... def window_partition(x, window_size): """ 将feature map按照指定大小划分成多个互不重叠的小窗口 """ ... def window_reverse(windows, window_size, H, W): """ 把之前分割出来的windows重新拼接回去 """ ... ``` 以上代码片段展示了用于构建Swin Transformer模块的部分函数定义,具体实现可根据实际需求调整参数配置。 #### 实验验证 实验表明采用Swin Transformer框架来进行图像修复可以获得较为理想的效果。特别是在面对较大面积缺失或者严重噪声干扰的情况下,依然能保持较高的恢复精度与自然度。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值