
文章主要内容与创新点总结
一、主要内容
本文聚焦立体图像超分辨率(StereoSR)任务,针对传统Transformer模型在该任务中存在的注意力噪声、水平极线错位导致性能下降等问题,提出了一种名为DIFFSSR的新型神经网络架构。该架构通过重新设计差分Transformer适配视觉任务,整合创新模块提升立体图像超分辨率效果,在Flickr1024、KITTI 2012/2015、Middlebury等多个基准数据集上,在峰值信噪比(PSNR)、结构相似性指数(SSIM)等定量指标及视觉质量上均超越NAFSSR、SwinFIRSSR等现有先进方法,代码已开源。
二、核心创新点
- 提出DIFFSSR架构:专为立体图像超分辨率设计,首次将差分Transformer(DIFF Transformer)应用于视觉任务,充分利用立体图像对的互补信息提升分辨率。
- 设计差分交叉注意力块(DCAB):解决原有差分Transformer在视觉任务中的不适用性,通过窗口化多头差分注意力(W-MDA)和轻量级立体特征耦合机制,区分相关与无关上下文,放大重要特征注意力、抵消噪声,同时增强左右视图信息交互。
- 提出滑动立体交叉注意力模块(SSCAM):重新设计传统立体交叉注

订阅专栏 解锁全文
1263

被折叠的 条评论
为什么被折叠?



