【LLIE专题】LYT-Net:一种轻量级 YUV Transformer 低光图像增强网络

在这里插入图片描述


本文将对 LYT-NET: Lightweight YUV Transformer-based
Network for Low-light Image Enhancement
,这篇文章进行讲解。参考资料如下:

[1] 文章
[2] 代码


专题介绍

在低光照环境下,传统成像设备往往因画面昏暗、细节丢失而受限。LLIE(低照度暗光增强)技术应运而生,它通过提升图像亮度、对比度,减少噪点并恢复色彩细节,让暗夜变得清晰可见。

LLIE技术从传统方法如直方图均衡化、Retinex模型等起步,近年来借助深度学习,尤其是卷积神经网络(CNN),GAN模型,扩散模型实现了质的飞跃。这些算法能自动学习图像特征,精准处理低光照图像,效果显著优于传统技术。

本专题将聚焦LLIE技术的核心原理、应用案例及最新进展,让我们一起见证LLIE如何点亮暗夜,开启视觉新视界!欢迎一起探讨交流!

系列文章如下
【1】ZeroDCE
【2】HVI
【3】CLIP-LIT
【4】GLARE
【5】Retinexformer
【6】SG-LLIE
【7】GPP-LLIE
【8】FusionNet
【9】EnligtenGAN
【10】PTG
【11】CSNorm
【12】SG-LLIE结构提取方案
【13】SAIGFormer
【14】BEM
【15】SKF
【16】SIED


一、研究背景

传统 LLIE 方法依赖频率分解、直方图均衡化、Retinex 理论等,虽有一定效果但局限性明显;深度学习兴起后,CNN、GAN 及 Vision Transformer(ViT)架构逐渐应用于 LLIE,但现有 ViT-based 方法在低级别视觉任务中探索不足,且部分模型存在计算复杂度高的问题。这篇论文旨在提出一种轻量级 Transformer-based 模型(LYT-Net) ,在保证低计算复杂度的同时,实现优于现有方法的低光图像增强效果,兼顾性能与效率。

二、方法

在这里插入图片描述
从上图可以看出,该方案在PSNR指标上达到了非常好的效果外,计算量也非常小。
下面我们来详细介绍该方案:
在这里插入图片描述
上图画的较为简略,下面公式均来自原文
LYT-Net采用双路径架构,在YUV颜色空间中分离亮度通道(Y)与色度通道(U、V)分别处理,结合创新模块与传统Transformer组件,具体结构与模块设计如下:

1. 整体架构

如上图所示,LYT-Net包含多个可分离模块,流程分为四步:

  1. 通道分离与预处理:将输入图像转换为YUV空间,亮度通道Y通过卷积和池化提取特征,色度通道U、V送入通道降噪模块;
  2. 特征增强:Y通道特征经多头自注意力(MHSA)模块增强,U、V通道经通道降噪(CWD)模块降噪并保留细节;
  3. 特征融合:增强后的U、V通道以及经过特征提取后的Y通道特征 经多阶段挤压融合(MSEF)模块处理,再与Y通道拼接;
  4. 输出生成:拼接后的特征通过最终卷积层,生成高质量增强图像。

2. 关键创新模块

2.1 通道降噪模块(CWD)
  • 结构:U型网络架构,以MHSA为bottleneck,集成卷积与注意力机制,包含4个3×3卷积层(1个步长1用于特征提取,3个步长2捕捉多尺度特征),并设计跳跃连接与上采样层;
  • 优势:在低空间维度特征图上应用MHSA,大幅提升计算效率;采用插值上采样替代转置卷积,减少参数量,同时保留性能。
2.2 多头自注意力模块(MHSA)
  • 流程
    1. 输入特征 F i n ∈ R H × W × C F_{in} \in \mathbb{R}^{H×W×C} FinRH×W×C经全连接层线性投影为查询(Q)、键(K)、值(V),维度保持不变;
    2. 将Q、K、V分割为k个独立头,每个头维度 d k = C / k d_k=C/k dk=C/k
    3. 对每个头计算自注意力,拼接所有头输出后经线性层投影回原维度,重塑为空间特征 F o u t ∈ R H × W × C F_{out} \in \mathbb{R}^{H×W×C} FoutRH×W×C
2.3 多阶段挤压融合模块(MSEF)

该模块核心目标是通过“挤压-激励”机制捕捉关键特征、抑制冗余信息,同时通过残差连接避免梯度消失,确保特征传递的完整性,为后续图像生成提供高质量特征基础。

MSEF模块的工作流程与核心公式
MSEF模块的工作流程分为“特征预处理→挤压操作→激励操作→残差融合”四个步骤,每个步骤对应明确的数学公式,所有公式均来自文档原文,具体如下:
步骤1:特征预处理(层归一化)
输入MSEF模块的特征图记为 F i n F_{in} Fin(维度为 R H × W × C \mathbb{R}^{H×W×C} RH×W×C,其中H为高度、W为宽度、C为通道数)。首先对 F i n F_{in} Fin进行层归一化(LayerNorm) ,目的是标准化特征分布,加速后续计算的收敛速度,这是“挤压-激励”操作的前置准备。

步骤2:挤压操作(Squeeze)——生成降维描述子 S r e d u c e d S_{reduced} Sreduced
“挤压操作”通过全局平均池化(GlobalPool) 压缩特征图的空间维度,将(H×W)的空间信息聚合为单值通道描述子,再通过降维全连接层与ReLU激活函数,提取关键全局特征并减少计算量,最终生成降维描述子 S r e d u c e d S_{reduced} Sreduced
S r e d u c e d = ReLU ( W 1 ⋅ GlobalPool ( LayerNorm ( F i n ) ) ) S_{reduced} = \text{ReLU}\left(W_{1} \cdot \text{GlobalPool}\left(\text{LayerNorm}\left(F_{in}\right)\right)\right) \quad Sreduced=ReLU(W1GlobalPool(LayerNorm(Fin)))
其中:

  • W 1 W_1 W1:降维全连接层的权重矩阵,作用是将全局池化后的特征维度从C降至更低维度(如 C / r C/r C/r,r为压缩比);
  • GlobalPool \text{GlobalPool} GlobalPool:全局平均池化操作,公式本质为对每个通道的所有空间像素取平均;
  • ReLU \text{ReLU} ReLU:激活函数,引入非线性,增强模型对复杂特征的表达能力。

步骤3:激励操作(Excite)——生成扩展描述子 S e x p a n d e d S_{expanded} Sexpanded
“激励操作”将降维描述子 S r e d u c e d S_{reduced} Sreduced通过升维全连接层恢复至原始通道维度C,再通过Tanh激活函数对通道特征进行“权重分配”——对重要通道特征赋予高权重,对冗余通道特征赋予低权重,最终生成扩展描述子 S e x p a n d e d S_{expanded} Sexpanded
S e x p a n d e d = Tanh ( W 2 ⋅ S r e d u c e d ) ⋅ LayerNorm ( F i n ) S_{expanded} = \text{Tanh}\left(W_{2} \cdot S_{reduced}\right) \cdot \text{LayerNorm}\left(F_{in}\right) \quad Sexpanded=Tanh(W2Sreduced)LayerNorm(Fin)
其中:

  • W 2 W_2 W2:升维全连接层的权重矩阵,作用是将 S r e d u c e d S_{reduced} Sreduced的维度从 C / r C/r C/r恢复至C;
  • Tanh \text{Tanh} Tanh:激活函数,输出范围为([-1,1]),相比ReLU能更精细地调节通道权重(支持对冗余特征的“抑制”,而非仅保留正值特征);

步骤4:残差融合——生成最终输出 F o u t F_{out} Fout
为避免特征在“挤压-激励”过程中丢失原始信息,MSEF模块引入残差连接(Residual Connection) :将经深度卷积(DWConv)处理的归一化特征,与 S e x p a n d e d S_{expanded} Sexpanded相乘,最终得到模块输出 F o u t F_{out} Fout。深度卷积的作用是进一步提取局部空间特征,与全局通道特征 S e x p a n d e d S_{expanded} Sexpanded形成互补。
F o u t = DWConv ( LayerNorm ( F i n ) ) ⋅ S e x p a n d e d + F i n ( 6 ) F_{out} = \text{DWConv}\left(\text{LayerNorm}\left(F_{in}\right)\right) \cdot S_{expanded} + F_{in} \quad (6) Fout=DWConv(LayerNorm(Fin))Sexpanded+Fin(6)

3. 损失函数

为全面优化图像质量,LYT-Net采用混合损失函数,通过超参数 α 1 − α 5 \alpha_1-\alpha_5 α1α5平衡各损失分量:
L = L S + α 1 L P e r c + α 2 L H i s t + α 3 L P S N R + α 4 L C o l o r + α 5 L M S − S S I M L=L_{S}+\alpha_{1} L_{Perc}+\alpha_{2} L_{Hist}+\alpha_{3} L_{PSNR}+\alpha_{4} L_{Color }+\alpha_{5} L_{MS-SSIM} \quad L=LS+α1LPerc+α2LHist+α3LPSNR+α4LColor+α5LMSSSIM

  • L S L_S LS(Smooth L1损失):处理异常值,根据预测与真实值差异施加二次/线性惩罚;
  • L P e r c L_{Perc} LPerc(感知损失):对比VGG提取的特征图,保证特征一致性;
  • L H i s t L_{Hist} LHist(直方图损失):对齐预测与真实图像的像素强度分布;
  • L P S N R L_{PSNR} LPSNR(PSNR损失):通过惩罚均方误差减少噪声;
  • L C o l o r L_{Color} LColor(颜色损失):最小化通道均值差异,保证颜色保真度;
  • L M S − S S I M L_{MS-SSIM} LMSSSIM(多尺度SSIM损失):跨尺度评估相似度,保留图像结构完整性。

各子损失函数的权重超参数,用于平衡不同损失分量对总损失的贡献,文档中明确设置为 α 1 = 0.06 \alpha_{1}=0.06 α1=0.06 α 2 = 0.05 \alpha_{2}=0.05 α2=0.05 α 3 = 0.5 \alpha_{3}=0.5 α3=0.5 α 4 = 0.0083 \alpha_{4}=0.0083 α4=0.0083 α 5 = 0.25 \alpha_{5}=0.25 α5=0.25

三、实验结果

1、定量实验:性能与复杂度双维度对比

在这里插入图片描述
定量实验以“性能领先性”与“轻量化优势”为核心目标,将LYT-Net与14种现有SOTA LLIE方法(如Restormer、MIRNet、Retinexformer等)在LOL系列数据集上进行对比,实验结果以表格形式呈现,关键结论如下:

性能领先性:PSNR与SSIM全面优于多数SOTA方法
在LOL三个数据集版本中,LYT-Net的PSNR与SSIM指标均处于前列,具体表现为:

  • LOL-v1数据集:LYT-Net的PSNR达27.23 dB、SSIM达0.853,超过Retinexformer(PSNR=27.14 dB、SSIM=0.850)、SNR-Net(PSNR=26.72 dB、SSIM=0.851)等方法,仅在SSIM上与Restormer(SSIM=0.853)持平;
  • LOL-v2-real数据集:LYT-Net的PSNR为27.80 dB、SSIM为0.873,显著优于Retinexformer(PSNR=27.69 dB、SSIM=0.856)、MIRNet(PSNR=27.17 dB、SSIM=0.865),是该数据集上PSNR与SSIM双指标最优的模型;
  • LOL-v2-synthetic数据集:LYT-Net的PSNR达29.38 dB、SSIM达0.940,略高于SNR-Net(PSNR=27.79 dB、SSIM=0.941)与Retinexformer(PSNR=28.99 dB、SSIM=0.939),在PSNR上表现最优。

轻量化优势:复杂度远低于其他高性能方法
定量实验同时对比了各模型的计算复杂度(FLOPS,浮点运算次数)与参数数量(Params),LYT-Net的轻量化特性尤为突出:

  • 计算复杂度:LYT-Net仅需3.49G FLOPS,远低于Restormer(144.25G FLOPS)、MIRNet(785G FLOPS)、SNR-Net(26.35G FLOPS)等方法,仅与3DLUT(0.075G FLOPS)处于同一轻量化级别;
  • 参数数量:LYT-Net仅含0.045M参数,不足Retinexformer(1.61M参数)的1/35、Restormer(26.13M参数)的1/580,是所有对比模型中参数最少的模型之一;
  • 性能-复杂度平衡:唯一与LYT-Net复杂度接近的3DLUT方法,其PSNR与SSIM指标显著低于LYT-Net(如LOL-v2-synthetic数据集上,3DLUT的PSNR=22.17 dB、SSIM=0.854,远低于LYT-Net的29.38 dB与0.940),证明LYT-Net在“高性能”与“低复杂度”之间实现了最优平衡。

2、定性实验

在这里插入图片描述
对比LYT-Net与KiND、Restormer、MIRNet、SNR-Net等方法的增强结果,发现其他方法普遍存在明显缺陷,而LYT-Net表现更优:

  • 颜色失真问题:KiND、Restormer方法增强后的图像存在明显偏色(如肤色偏黄、场景色调失衡),而LYT-Net能精准还原图像原始颜色,与“Ground Truth(真实图像)”色调一致;
  • 过曝/欠曝问题:MIRNet、SNR-Net在增强低光区域时,易导致高光区域过曝(如灯光区域泛白、细节丢失)或阴影区域欠曝(如暗部仍存在大量噪声与细节模糊),LYT-Net则能均匀调整图像亮度,避免极端曝光问题;
  • 细节保留能力:通过放大图像中的纹理区域(如衣物纹理、文字细节),可见LYT-Net在消除低光噪声的同时,能完整保留细微结构,而其他方法要么噪声残留明显,要么过度平滑导致细节丢失。

四、总结

本文针对低光图像增强(LLIE)任务中“高性能模型复杂度高、轻量化模型效果差”的痛点,提出了轻量级YUV Transformer网络LYT-Net,核心思路主要是采用了双路径YUV分离处理架构。通过模块创新(CWD、MSEF)与架构优化(YUV双路径),首次在LLIE任务中实现“0.045M参数+SOTA性能”的平衡,为低光图像增强的移动端、实时部署场景提供了可行方案。

  • 本文复现效果其实指标没有那么高。。。

感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值