
INTERPRETABLE UNSUPERVISED JOINT DENOISING AND ENHANCEMENT FOR REAL WORLD LOW-LIGHT SCENARIOS(2025 ICLR)
该研究发表于 ICLR 2025,针对真实低光场景下图像存在局部过曝、低亮度、噪声和光照不均等复杂退化问题,提出一种可解释的零参考联合去噪与低光增强框架。该框架基于物理成像原理和 Retinex 理论,通过预处理生成光照与噪声水平不同的配对子图像构建自监督训练策略;利用离散余弦变换(DCT) 在 sRGB 空间进行频域分解,结合隐式引导、混合表示策略分离复杂、复合退化;设计由隐式退化表示机制引导的分解网络作为骨干网络,并通过 Frequency-Illumination 表示编码器(FIcoder)、反射图提取网络(REFnet)等组件实现端到端训练。在 LOLv1、LOLv2、SICE、SIDD 四个数据集上的实验表明,该方法在 PSNR、SSIM、LPIPS 等指标上优于现有无参考和无配对方法,如在 LOLv2-Real 数据集上 PSNR 达 20.22、SSIM 达 0.793,且能有效解决局部过曝、欠曝和噪声问题。参考资料如下:
[1]. 论文地址
[2].代码
一、研究背景
当前低光图像处理方法主要分为传统方法、有监督学习方法、无监督/零参考方法三类,但均存在明显不足:
- 传统方法:如伽马校正、直方图均衡化、传统Retinex理论,仅聚焦单维度亮度调整,无法应对真实场景的复杂退化,且手工设计的先验缺乏对多样场景的泛化能力。
- 有监督学习方法:依赖成对(低光-正常光)数据训练,但大规模成对数据采集难度大;且参考图像的亮度差异易干扰模型拟合,实用性受限。
- 无监督/零参考方法:虽泛化性更优,但存在缺陷:
- 零参考方法(如Zero-DCE)未考虑噪声退化,部分集成去噪模块的方法(如SCI、RUAS)依赖复杂且泛化性差的损失函数;
- 多阶段学习方法(如部分无监督模型)易忽略优化过程中的误差累积(如低光增强后噪声更复杂);
- 多数方法无法区分多退化模式的特征层,导致图像恢复过程中出现特征混淆,难以兼顾增强效果与去噪性能。
正是上述背景下,本论文提出一种可解释、零参考的联合去噪与低光增强框架,以解决真实场景的低光图像处理难题。
二、方法

2.1 Retinex理论(图像分解模型)
传统Retinex理论模拟人类视觉对亮度和颜色的感知,将图像
I
∈
R
H
×
W
×
3
I \in \mathbb{R}^{H×W×3}
I∈RH×W×3分解为光照分量
L
L
L(反映光照强度)和反射分量
R
R
R(反映物体固有属性),公式为:
I
=
R
∘
L
I = R \circ L
I=R∘L
其中
∘
\circ
∘ 表示元素级乘法。但传统模型未考虑低光场景的噪声干扰,因此本文扩展公式,引入零均值泊松噪声
N
N
N(真实低光噪声的典型模型),得到:
I
=
(
R
+
N
)
∘
L
I = (R + N) \circ L
I=(R+N)∘L
该公式成为方案中“联合去噪(消除
N
N
N)+ 增强(调整
L
L
L)”的理论核心。
2.2 自监督去噪的邻域像素掩蔽(Neighboring Pixel Masking)
传统去噪需成对的“噪声图像-干净图像”训练,但真实场景中难以获取。本文基于Noise2Noise理论(用噪声图像替代干净图像训练,优化结果等效),提出“邻域掩蔽”策略:
将原始低光图像划分为多个
2
×
2
2×2
2×2 像素块,从每个块中随机选择2个相邻像素,分别分配到两个子图像
D
1
(
I
)
\mathcal{D}_1(I)
D1(I)和
D
2
(
I
)
\mathcal{D}_2(I)
D2(I)中。最终生成的子图像满足:
- 噪声 N 1 N_1 N1 和 N 2 N_2 N2服从相同分布(零均值);
- 反射分量 R 1 R_1 R1和 R 2 R_2 R2像素值高度相似(同一物体固有属性);
- 光照分量 L 1 L_1 L1和 L 2 L_2 L2 对应相同光照条件。
该策略无需干净参考图像,即可构建自监督训练所需的“退化差异对”。
2.3 整体架构
方案的核心是DEnet(联合去噪与增强网络),整体分为4个模块,流程如上图所示,关键是通过“子图像生成→退化表征提取→分量分解→光照校正”实现端到端优化。
2.3.1 子图像生成:构建自监督信号
为引入“光照差异”(增强模型对光照变化的鲁棒性),对
D
2
(
I
)
\mathcal{D}_2(I)
D2(I)施加随机伽马校正(避免直接对原始图像操作导致噪声保留),生成
D
‾
2
(
I
)
\overline{\mathcal{D}}_2(I)
D2(I)。通过泰勒展开近似(
λ
\lambda
λ 为伽马因子,接近1时
R
2
λ
−
1
≈
1
R_2^{\lambda-1}≈1
R2λ−1≈1),最终子图像对满足:
{
D
1
(
I
)
=
(
R
1
+
N
1
)
∘
L
1
D
‾
2
(
I
)
=
(
R
2
+
λ
N
2
)
∘
L
‾
2
\begin{cases} \mathcal{D}_1(I) = (R_1 + N_1) \circ L_1 \\ \overline{\mathcal{D}}_2(I) = (R_2 + \lambda N_2) \circ \overline{L}_2 \end{cases}
{D1(I)=(R1+N1)∘L1D2(I)=(R2+λN2)∘L2
其中
L
‾
2
=
L
2
λ
\overline{L}_2 = L_2^\lambda
L2=L2λ(光照增强后的分量)。该设计使两个子图像既存在“噪声差异”(
N
1
N_1
N1 vs
λ
N
2
\lambda N_2
λN2),又存在“光照差异”(
L
1
L_1
L1 vs
L
‾
2
\overline{L}_2
L2),为联合优化提供监督信号。
2.3.2 FIcoder:提取退化隐式表征
现有方法难以区分多重退化(如噪声、光照不均),本文通过多先验融合解决该问题,FIcoder提取5种先验并融合为退化表征 ( P ):
(1)光照先验 I l u I_{lu} Ilu
- 计算子图像在通道维度的均值( I l u = m e a n c ( I ) I_{lu} = mean_c(I) Ilu=meanc(I)),反映图像整体亮度水平,用于指导光照分量调整。
(2)频域先验(4个频段)
基于DCT(离散余弦变换) 将空间域图像转换为频域,不同频段对应不同退化信息:
- 低频段( C l o w 1 C_{low1} Clow1、 C l o w 2 C_{low2} Clow2):捕获色度、语义信息(如物体轮廓);
- 高频段( C h i g h 1 C_{high1} Chigh1、 C h i g h 2 C_{high2} Chigh2):捕获边缘轮廓、噪声强度(高频噪声是低光图像主要干扰)。
具体步骤:
- 对每个通道应用2D DCT,得到频域特征图 F F F;
- 定义4个频段掩码(如 M l o w 1 ( u , v ) = 1 M_{low1}(u,v)=1 Mlow1(u,v)=1 当 u + v ≤ 3 t u+v \leq 3t u+v≤3t, t t t 为带宽超参),过滤出对应频段;
- 对过滤后的频域图应用逆DCT(IDCT),转换回空间域,得到4个频域先验;
- 通过卷积网络融合光照先验与4个频域先验,生成退化表征 P P P(隐式编码多重退化模式)。
2.3.3 Decompose-Net:反射与光照分解
分解网络包含两个子网络,核心是用FIcoder的退化表征指导分解,避免传统方法“特征混淆”问题:
(1)REFnet(反射图提取网络)
- 任务:提取物体固有反射分量(需抑制噪声与光照干扰);
- 设计:采用多头交叉注意力机制,将退化表征 P P P 与子图像特征进行交叉注意力计算,突出反射分量的稳定特征,抑制噪声(高频干扰)与光照(低频波动)的影响;
- 输出:反射图 R 1 R_1 R1(来自 D 1 ( I ) \mathcal{D}_1(I) D1(I))、 R 2 R_2 R2(来自 D ‾ 2 ( I ) \overline{\mathcal{D}}_2(I) D2(I))。
(2)LUMnet(光照图提取网络)
- 任务:提取光照分量(需平滑性,避免局部过曝/欠曝);
- 设计:每个Transformer块分为“自注意力计算”和“门控模块”,对光照特征施加平滑约束(避免光照突变);
- 输出:光照图 L 1 L_1 L1(来自 D 1 ( I ) \mathcal{D}_1(I) D1(I))、 L ‾ 2 \overline{L}_2 L2(来自 D ‾ 2 ( I ) \overline{\mathcal{D}}_2(I) D2(I))。
2.3.4 LCnet:自适应光照校正
传统方法采用固定光照调整(如全局伽马),易导致局部过曝。LCnet通过“特征池化+线性映射”实现自适应校正:
- 对光照图 L 1 L_1 L1 用Transformer提取全局光照特征;
- 全局平均池化后,通过两个线性层输出1维光照增强因子 α \alpha α;
- 最终增强图像: I e n = R 1 ∘ L 1 α I_{en} = R_1 \circ L_1^\alpha Ien=R1∘L1α(反射分量保留细节,校正光照恢复亮度)。
2.4 损失函数设计
为确保“分解合理性”与“增强效果”,损失函数分为两大类,总损失为各部分加权和:
L
=
ω
R
L
R
+
ω
L
L
L
+
ω
c
o
n
L
c
o
n
+
ω
e
n
h
L
e
n
h
\mathcal{L} = \omega_R \mathcal{L}_R + \omega_L \mathcal{L}_L + \omega_{con} \mathcal{L}_{con} + \omega_{enh} \mathcal{L}_{enh}
L=ωRLR+ωLLL+ωconLcon+ωenhLenh
其中
ω
∗
\omega_*
ω∗为权重系数,平衡各损失贡献。
2.4.1 Retinex分解损失(确保物理一致性)
约束分解后的反射图与光照图符合物理规律,分为两部分:
(1)反射图一致性损失 L R \mathcal{L}_R LR
基于“同一物体反射分量相同”的物理假设,约束两个子图像的反射图差异最小:
L
R
=
∥
R
E
F
(
D
1
(
I
)
,
P
1
)
−
R
E
F
(
D
‾
2
(
I
)
,
P
2
)
∥
2
2
+
ω
r
e
g
L
r
e
g
\mathcal{L}_R = \| REF(\mathcal{D}_1(I), P_1) - REF(\overline{\mathcal{D}}_2(I), P_2) \|_2^2 + \omega_{reg} \mathcal{L}_{reg}
LR=∥REF(D1(I),P1)−REF(D2(I),P2)∥22+ωregLreg
- 第一项: L 2 L_2 L2 范数约束 R 1 R_1 R1 与 R 2 R_2 R2差异;
- 第二项:正则化项 L r e g \mathcal{L}_{reg} Lreg(通过掩码测试图与子图反射图的 L 2 L_2 L2差异,确保跨尺度一致性,提升泛化性)。
(2)光照图合理性损失 L L \mathcal{L}_L LL
约束光照图平滑性,且分解结果需重构原始子图像:
L
L
=
∥
R
1
∘
L
1
−
D
1
(
I
)
∥
2
2
⏟
重构约束
+
∥
L
1
−
L
0
∥
2
2
⏟
亮度约束
+
∥
R
1
−
D
1
(
I
)
L
1
.
d
e
t
a
c
h
(
)
∥
2
2
⏟
反射约束
+
∇
L
1
⏟
平滑约束
\mathcal{L}_L = \underbrace{\| R_1 \circ L_1 - \mathcal{D}_1(I) \|_2^2}_{重构约束} + \underbrace{\| L_1 - L_0 \|_2^2}_{亮度约束} + \underbrace{\| R_1 - \frac{\mathcal{D}_1(I)}{L_1.detach()} \|_2^2}_{反射约束} + \underbrace{\nabla L_1}_{平滑约束}
LL=重构约束
∥R1∘L1−D1(I)∥22+亮度约束
∥L1−L0∥22+反射约束
∥R1−L1.detach()D1(I)∥22+平滑约束
∇L1
- L 0 L_0 L0:子图像各通道最大值(确保光照图不低于原始亮度);
- ∇ L 1 \nabla L_1 ∇L1:光照图梯度(抑制光照突变,避免过曝)。
2.4.2 自监督增强损失(确保视觉质量)
约束增强图像的亮度、对比度、色度符合人类视觉感知,分为两部分:
(1)一致性损失 L c o n \mathcal{L}_{con} Lcon
确保增强前后图像的局部对比度一致性(避免增强后细节丢失):
将图像划分为
K
K
K 个块,对每个块
i
i
i,约束其与相邻块
j
j
j 的亮度差在增强前后不变:
L
c
o
n
=
1
K
∑
i
=
1
K
∑
j
∈
σ
(
i
)
(
∣
I
e
n
,
i
−
I
e
n
,
j
∣
−
∣
D
1
(
I
)
i
−
D
1
(
I
)
j
∣
)
\mathcal{L}_{con} = \frac{1}{K} \sum_{i=1}^K \sum_{j \in \sigma(i)} \left( |I_{en,i} - I_{en,j}| - |\mathcal{D}_1(I)_i - \mathcal{D}_1(I)_j| \right)
Lcon=K1i=1∑Kj∈σ(i)∑(∣Ien,i−Ien,j∣−∣D1(I)i−D1(I)j∣)
其中
σ
(
i
)
\sigma(i)
σ(i) 为块
i
i
i 的相邻块集合。
(2)增强损失 L e n h \mathcal{L}_{enh} Lenh
约束增强图像的全局亮度与色度:
L
e
n
h
=
ω
e
x
p
⋅
1
K
∑
i
=
1
K
∣
I
e
n
,
i
−
E
∣
+
ω
c
o
l
⋅
∑
∀
(
p
,
q
)
∈
ε
(
V
p
−
V
q
)
2
\mathcal{L}_{enh} = \omega_{exp} \cdot \frac{1}{K} \sum_{i=1}^K |I_{en,i} - E| + \omega_{col} \cdot \sum_{\forall(p,q) \in \varepsilon} (V_p - V_q)^2
Lenh=ωexp⋅K1i=1∑K∣Ien,i−E∣+ωcol⋅∀(p,q)∈ε∑(Vp−Vq)2
- 第一项:亮度约束( E E E为符合人类感知的标准曝光值,避免过亮/过暗);
- 第二项:色度约束( V p V_p Vp 为增强图像通道 ( p ) 的平均强度, ε = { ( R , G ) , ( R , B ) , ( G , B ) } \varepsilon = \{(R,G),(R,B),(G,B)\} ε={(R,G),(R,B),(G,B)},确保颜色不失真)。
三、实验结果
1. 定量指标对比(关键数据集结果)


2. 主观视觉效果对比



- 优势:所提方法能有效解决局部过曝光、欠曝光和噪声问题,同时保持色彩保真度与细节完整性。
- 对比方法缺陷:
- EnlightenGAN、Zero-DCE:增强暗区时引入明显噪声;
- RUAS、SCI:存在局部过曝光、对比度失真;
- Nerco(生成式模型):部分区域产生伪影,增强效果不可控。
3. 光照自适应模块(LCnet)消融

- 无LCnet:采用固定参考调整策略(如PairLIE),无法适配不同退化程度的低光图像,局部易过曝光;
- 有LCnet:通过动态计算增强因子,实现跨场景一致的光照调整,视觉效果更自然。
四、总结
本文提出的零参考联合去噪与增强方案,通过“邻域掩蔽子图像生成”“频域-光照先验融合”“自适应分量分解”三大创新,有效解决真实低光场景的多重退化问题。实验表明,方案在定量指标与定性视觉效果上均优于现有SOTA方法。
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。
1288

被折叠的 条评论
为什么被折叠?



