【LLIE专题】一种用于低光图像增强的空间自适应光照引导 Transformer（SAIGFormer）框架

最新推荐文章于 2025-12-02 20:45:02 发布

原创最新推荐文章于 2025-12-02 20:45:02 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #LLIE #低照度图像增强

低照度图像增强专栏收录该内容

32 篇文章

订阅专栏

在这里插入图片描述

SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement（2025）

专题介绍
一、研究背景
二、方法
三、实验结果
- - 1. 数据集
  - 2. 对比
四、总结

本文将对 SAIGFormer: A Spatially-Adaptive Illumination-Guided Network for Low-Light Image Enhancement，这篇文章进行讲解。参考资料如下：

[1] 文章
 [2] 代码

专题介绍

在低光照环境下，传统成像设备往往因画面昏暗、细节丢失而受限。LLIE（低照度暗光增强）技术应运而生，它通过提升图像亮度、对比度，减少噪点并恢复色彩细节，让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步，近年来借助深度学习，尤其是卷积神经网络（CNN），GAN模型，扩散模型实现了质的飞跃。这些算法能自动学习图像特征，精准处理低光照图像，效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展，让我们一起见证LLIE如何点亮暗夜，开启视觉新视界！欢迎一起探讨交流！

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案

一、研究背景

近年来基于 Transformer 的低光增强方法在恢复全局光照方面取得了显著进展，但在逆光、阴影等非均匀光照场景中仍存在过曝光或亮度恢复不足的问题。为此，作者提出了一种空间自适应光照引导 Transformer（SAIGFormer）框架，以实现准确的光照恢复。

具体而言，该框架提出动态积分图像来建模空间变化的光照，并构建了新的空间自适应积分光照估计器 SAI²E；还引入了光照引导多头自注意力（IGMSA）机制，利用光照校准与亮度相关的特征，以实现视觉上满意的光照增强。

在五个标准低光数据集和一个跨域基准（LOL-Blur）上的大量实验表明，SAIGFormer 在定量和定性指标上均显著优于最先进的方法，尤其在非均匀光照增强方面表现出色，同时在多个数据集上具有很强的泛化能力。

二、方法

作者认为光照估计器的本质需要基于以下三个关键要点：
（1）简单且轻量，避免复杂的网络结构和手工制定的约束。
（2）具有很强的空间适应性，以准确匹配非均匀且空间复杂的光照分布。
（3）它应位于早期阶段，以便在框架的所有模块中提供光照引导，实现精确的光照恢复。

基于这些原则，作者开发了一种简单而高效的空间自适应积分光照估计器（SAI²E），该估计器引入了动态积分图像技术，从原始图像中提取空间变化的光照。此外，作者提出了一种光照引导多头自注意力（IG-MSA）模块，该模块将提取的光照图与通道注意力相结合。

2.1 动机

-现有光照估计器通常采用简单的Mean-RGB/Max-RGB理论或基于Retinex的框架，但这些方法往往无法实现精确的光照恢复。

已知光照主要编码在图像的低频分量中，早期基于Retinex理论的工作采用高斯滤波来增强估计光照图的平滑性，低通滤波器是提取光照分量的可行选择。但现实场景中的光照高度不均匀且空间复杂，不同光照条件下的区域在噪声污染程度上存在显著差异，固定窗口大小的低通滤波器无法在所有空间区域一致地捕捉具有代表性的光照分量，可能会误导模型在整个图像上均匀地学习准确的光照模式。
作者提出了高效的光照估计器SAI²E，首次将动态积分图像表示引入低光图像增强。积分图像能够快速并行计算图像任意矩形区域的逐像素积分，利用这一特性，采用小型子网络为低光图像中不同光照条件的区域自适应分配不同窗口大小的低通滤波器，从而实现每个区域的准确光照估计。

2.2 框架概述

如前所述，现有的光照增强框架难以有效增强非均匀光照。为解决这一问题，首先从原始图像中估计空间自适应光照，以指导Transformer框架精确增强光照。
在这里插入图片描述
上图展示了所提出的空间自适应光照引导Transformer（SAIGFormer）的整体框架。在框架的浅层，所提出的空间自适应积分光照估计器（SAI²E）从输入图像的每个通道估计光照。SAIGFormer的主要架构采用UNet架构，其中每个阶段由堆叠的空间自适应光照引导Transformer（SAIGT）块组成。光照图像 $I_{L_{-} 0}$ 通过通道方向的深度可分离卷积在各个尺度下采样为 $I_{L_{-} 1}$ 、 $I_{L_{-} 2}$ 和 $I_{L_{-} 3}$ 。值得注意的是，光照图像不会被上采样，而是在编码器和解码器之间共享。

2.3 空间自适应积分光照估计器

空间自适应积分光照估计器（SAI²E）旨在高效且准确地从输入图像中估计非均匀光照。

SAI²E由四个阶段组成：
1）积分图像的计算；
2）每个空间位置的积分区域和调制系数的预测；
3）动态积分图像的计算和每个空间位置的光照估计；
4）光照的调制。

具体来说:

动态积分区域的确定
首先，通过Offset-Net预测坐标偏移图 $\in \mathbb{R}^{H ×W ×4}$ ，其中偏移图的四个通道分别表示每个空间位置中心坐标 $C$ 在顶部（t）、左侧（l）、底部（b）和右侧（r）的位移量。由于训练和测试阶段图像尺寸可能不一致，需将每个空间位置的偏移乘以缩放因子 $N_h = h / H$ 和 $N_w = w / W$ , $h 、 w$ 为训练图像尺寸， $H 、 W$ 为原始图像尺寸）以适配不同尺寸。基于上述偏移量，可计算每个空间位置的动态积分区域坐标（tl, tr, bl, br），这些坐标定义了该位置对应的矩形积分区域范围。
动态积分图像的计算
在确定动态积分区域后，利用积分图像的特性计算动态积分图像 $I_d$ 。积分图像 $I_{ii}(x, y)$ 的计算公式为：
$I_{ii}(x, y) = \sum_{\substack{x' \leq x \\ y' \leq y}} I(x', y')$
其中， $I_{ii}(x, y)$ 表示原始图像 $I$ 中所有位于 $(x, y)$ 上方和左侧的像素总和。
动态积分图像 $I_d$ 的计算基于上述积分图像，通过动态积分区域的坐标（tl, tr, bl, br），快速求解该区域内的像素和，从而实现对空间变化光照的自适应估计。
光照图的最终生成
估计每个空间位置的光照后，将其与Modulation-Net预测的调制系数图 $\in \mathbb{R}^{H ×W ×3}$ 相乘，得到最终的光照图 $I_L$ ，公式可概括为：
$I_L = \text{（光照估计值）} \times M$
以此实现对光照强度的自适应调制，确保光照估计的准确性。

总之，结合卷积神经网络和积分图像算法，为每个空间位置自适应地预测不同窗口大小的低通滤波区域。

2.4 空间自适应光照引导Transformer

如上图所示，SAIGT由两个PreLayerNorm（LN）、一个光照引导多头自注意力（IGMSA）模块和一个双门控前馈网络（DG-FFN）组成。IG-MSA：为了优化Transformer内的光照特征建模，提出了IG-MSA（光照引导多头自注意力），它将光照集成到查询向量中以校准通道特征，从而引导Transformer实现准确的光照增强（类似retinexformer思路）。这个网络结构在transformer结构中非常常见，不再赘述。

三、实验结果

1. 数据集

在6个低光图像增强基准数据集上进行评估，具体包括：

LOL系列：LOL-v1（500对图像，485用于训练，15用于测试）；LOL-v2分为真实子集（LOL-v2-Real，689:100划分）和合成子集（LOL-v2-Syn，900:100划分）。
SID与SMID：均包含短曝光（低光）和长曝光（正常光）图像对，SID含2697对（2099训练、598测试），SMID含20809对（15763训练、剩余测试），均从RAW格式转换为sRGB格式。
LOL-Blur：含12000对低光且含运动模糊的图像，按17:3划分为训练和测试集，用于验证跨域泛化能力。

2. 对比

通过定量（PSNR、SSIM）和定性指标，与RetinexNet、EnlightenGAN、UFormer等现有方法对比，结果如下：

定量结果
- LOL-v1：PSNR达24.94dB，超第二名SNR-Net 0.33dB，SSIM 0.863，为当前最优。
- LOL-v2-Syn：PSNR 26.60dB，超第二名URWKV 0.24dB，SSIM 0.946，居首。
- SMID：PSNR 29.67dB，超第二名URWKV 0.23dB，SSIM 0.831，表现最优。
- LOL-Blur（跨域）：PSNR 27.41dB，超第二名URWKV 0.14dB，SSIM 0.908，验证强泛化能力。
定性结果
视觉对比显示，SAIGFormer在非均匀光照场景（如逆光、阴影）中能避免过曝光（如LLFlow、GSAD）、欠曝光（如CIDNet）及噪声、artifacts（如Retinexformer），光照分布更接近真实值；在极端暗区和运动模糊场景中，细节恢复更优，色彩失真更少。