论文翻译:Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement

摘要

        本文提出了一种新颖的零参考深度曲线估计方法(Zero-DCE),该方法将光照增强任务构建为基于深度网络的图像特定曲线估计问题。我们训练了一个轻量级深度网络DCE-Net,用于估计像素级高阶曲线以实现给定图像的动态范围调整。这些曲线经过特殊设计,充分考虑了像素值范围、单调性和可微性等特性。

        Zero-DCE的最大优势在于其对参考图像的宽松假设——即训练过程中完全不需要任何配对或非配对数据。这一特性是通过精心设计的一组无参考损失函数实现的,这些函数能够隐式衡量增强质量并驱动网络学习。我们的方法非常高效,仅需通过直观简单的非线性曲线映射即可实现图像增强。尽管方法简洁,但实验表明其能够很好地泛化到各种光照条件。

        在多个基准测试上的大量实验证明,我们的方法在定性和定量评估上均优于当前最先进的技术。此外,本文还探讨了Zero-DCE在黑暗环境下人脸检测中的潜在应用价值。

1、介绍

        许多照片常常由于不可避免的环境和/或技术限制而在不理想的光照条件下被拍摄。这些限制包括环境中不充足和不平衡的光照条件、物体在极端逆光下的不正确摆放,以及在图像捕捉时的曝光不足。这类低光照照片存在审美质量受损和信息传递不令人满意的问题。前者影响观看者的体验,而后者会导致传达错误信息,例如不准确的物体/人脸识别。(The former affects viewers’ experience while the latter leads to wrong message being communicated, such as inaccurate object/face recognition.)

        在这项研究中,我们提出了一种基于深度学习的新方法——零参考深度曲线估计(Zero-DCE),用于低光照图像增强。它能够应对包括不均匀和不良光照在内的多种光照条件。我们没有采用图像到图像的映射方式,而是将该任务重新构建为一个图像特定的曲线估计问题。具体来说,所提出的方法以低光照图像作为输入,并生成高阶曲线作为输出。然后,这些曲线被用于对输入图像的动态范围进行像素级调整,从而获得增强后的图像。曲线估计经过精心设计,以确保增强后图像的范围得以保持,并保留相邻像素的对比度。重要的是,它是可微的,因此我们可以通过深度卷积神经网络学习曲线的可调参数。所提出的网络是轻量级的,可以迭代应用以逼近更高阶的曲线,从而实现更鲁棒和准确的动态范围调整。

        我们这种基于深度学习的方法有一个独特优势,即零参考性,也就是说,在训练过程中不需要任何配对的甚至非配对的数据,这与现有的基于CNN[28,32]和基于GAN[12,38]的方法不同。这一优势是通过一组专门设计的无参考损失函数实现的,包括空间一致性损失、曝光控制损失、色彩恒常性损失和光照平滑损失,所有这些损失都考虑了光照增强的多方面因素。我们证明,即使在没有参考数据的情况下进行训练,Zero-DCE仍然能够与那些需要配对或非配对数据进行训练的其他方法竞争。图1展示了一个包含非均匀光照的低光照图像增强的例子。与最先进的方法相比,Zero-DCE在提亮图像的同时保留了固有的色彩和细节。相比之下,基于CNN的方法[28]和基于GAN的EnlightenGAN[12]都出现了欠增强(面部)和过增强(橱柜)的情况。

创新点:

我们的贡献总结如下:

  1. 我们提出了第一个不依赖于配对和非配对训练数据的低光照增强网络,从而避免了过拟合风险。因此,我们的方法能够很好地适应各种光照条件。

  2. 我们设计了一种图像特定曲线,通过迭代应用自身来逼近像素级和高阶曲线。这种图像特定曲线能够在宽动态范围内有效执行映射。

  3. 我们展示了在没有参考图像的情况下,通过特定任务的非参考损失函数间接评估增强质量,来训练深度图像增强模型的潜力。

我们的Zero-DCE方法在定性和定量指标上都超越了最先进的性能。更重要的是,它能够改进高级视觉任务(例如人脸检测),而不会带来高计算负担。该方法能够实时处理图像(在GPU上对640×480×3大小的图像处理速度约为500帧/秒),且训练仅需30分钟。

2.相关工作

传统方法

        基于直方图均衡化(HE)的方法通过扩展图像动态范围来实现光照增强,在全局[7,10]和局部[15,27]两个层面调整图像的直方图分布。此外,还有多种方法采用Retinex理论[13],该理论通常将图像分解为反射分量和光照分量。其中反射分量通常被假定在任何光照条件下都保持一致,因此光照增强就被转化为光照估计问题。 基于Retinex理论,研究者提出了多种改进方法:Wang等人[29]开发了处理非均匀光照图像时能保持自然度和信息完整性的方法;Fu等人[8]提出加权变分模型同时估计输入图像的反射和光照分量;Guo等人[9]首先通过搜索RGB通道中各像素的最大强度值来估计粗糙光照图,再利用结构先验进行细化;Li等人[19]则提出了考虑噪声的新型Retinex模型,通过求解优化问题来估计光照图。

        与那些偶然改变图像直方图分布或依赖可能不准确物理模型的传统方法不同,本文提出的Zero-DCE方法通过图像特定曲线映射来产生增强结果。这种策略能在不产生非真实伪影的前提下实现图像光照增强。Yuan和Sun[36]提出的自动曝光校正方法通过全局优化算法估计图像的S形曲线,再通过曲线映射将各分割区域推至最佳曝光区间。与[36]不同,我们的Zero-DCE是完全数据驱动的方法,在非参考损失函数设计中综合考虑了多种光照增强因素,因而具有更好的鲁棒性、更宽的图像动态范围调节能力以及更低的计算负担。

数据驱动方法

        数据驱动方法主要分为两大类:基于CNN的方法和基于GAN的方法。大多数基于CNN的解决方案依赖于配对数据进行监督训练,因此需要大量资源。这些配对数据通常通过以下方式收集:自动模拟光照衰减、在数据采集时调整相机参数设置,或通过图像修饰人工合成。例如,LL-Net[20]使用随机Gamma校正模拟的数据进行训练;LOL数据集[32]通过改变曝光时间和ISO感光度来获取配对的低光/正常光图像;MIT-Adobe FiveK数据集[3]包含5000张原始图像,每张图像配有5张由专业修图师修饰的版本。

        近期,Wang等人[28]提出通过估计光照图来实现欠曝光照片增强的网络。该网络使用三位专家修饰的配对数据进行训练。考虑到收集足够配对数据的高成本,以及训练数据中可能存在的人为修饰和不真实内容,这种基于配对数据的增强方法在实际应用中存在诸多局限。这些限制直接导致基于CNN的方法泛化能力较差,容易产生伪影和色偏问题。

        基于GAN的无监督方法则避免了配对数据的需求。EnlightenGAN[12]作为开创性的无监督GAN方法,利用非配对的低光/正常光数据进行训练,其网络设计包含精心构建的判别器和损失函数。然而,这类无监督GAN方案通常需要谨慎挑选非配对训练数据。

        我们提出的Zero-DCE在三个方面优于现有数据驱动方法:首先,它开创了全新的零参考学习策略,完全摆脱了对配对/非配对数据的依赖;其次,通过精心设计的非参考损失函数进行训练,这种策略能隐式评估输出图像质量,并将评估结果反馈至网络学习过程;第三,本方法具有极高的效率和性价比。这些优势源于三大创新:零参考学习框架、轻量级网络结构,以及高效的非参考损失函数设计。

3.方法

        我们在图2中展示了Zero-DCE的框架结构。深度曲线估计网络(DCE-Net)被设计用于根据输入图像估计一组最佳拟合的光照增强曲线(LE-curves)。该框架通过迭代应用这些曲线对输入图像的RGB通道所有像素进行映射,最终获得增强后的图像。下文将详细阐述Zero-DCE的三个核心组件:LE曲线、DCE-Net以及非参考损失函数。

3.1 光照增强曲线(LE-curve)

        受图像编辑软件中曲线调整功能的启发,我们设计了一种能够自动将低光照图像映射至增强版本的自适应曲线,其参数完全由输入图像决定。该曲线设计需满足三个目标:

  1. 增强后图像的像素值应归一化至[0,1]范围,避免溢出截断导致的信息损失;

  2. 曲线需保持单调性以维持相邻像素的对比度差异;

  3. 曲线形式应尽可能简洁,且在梯度反向传播过程中可微。

为实现这些目标,我们设计了一个二次曲线表达式:


其中x表示像素坐标,α∈[-1,1]是可训练曲线参数,用于调节曲线幅度和曝光程度。所有像素值均归一化处理,且操作均为像素级。我们特别将LE曲线独立应用于RGB三通道(而非仅亮度通道),这种设计能更好地保持原始色彩并降低过饱和风险。

图2(b)展示了不同α参数的LE曲线,可见其完全满足上述三个设计目标。该曲线不仅能扩展输入图像的动态范围,还可同时处理低光区域增强和过曝光伪影消除。

高阶曲线:公式(1)的LE曲线可通过迭代应用实现更灵活的调整:


其中迭代次数n控制曲率(本文设为8)。当n=1时即退化为基础形式。图2(c)显示,高阶曲线具有更强的动态范围调节能力。

像素级曲线:虽然高阶曲线扩展了调整范围,但α参数全局共享仍可能导致局部过/欠增强。为此我们将α改进为像素级参数:


其中A是与图像同尺寸的参数图。假设局部区域像素具有相同强度(即共享调整曲线),因此输出仍能保持邻域单调性。图3展示了三通道的曲线参数图示例,可见不同通道的参数图虽数值不同但调整趋势相似,准确反映了图像各区域的亮度特征(如墙面光斑)。通过这种像素级曲线映射,最终增强结果既能揭示暗部细节,又能完好保留亮部区域(图3(e))。

3.2 DCE-Net网络架构
为实现输入图像与最优曲线参数图之间的映射,我们设计了深度曲线估计网络(DCE-Net)。该网络以低光照图像作为输入,输出对应高阶曲线的像素级参数图集。我们采用具有对称连接的7层卷积神经网络结构:

  • 每层包含32个3×3卷积核(步长为1),后接ReLU激活函数

  • 摒弃会破坏像素邻域关系的下采样和批归一化层

  • 末层采用Tanh激活函数,输出24张参数图(对应8次迭代×3通道)

值得注意的是,DCE-Net仅含79,416个可训练参数,处理256×256×3尺寸图像仅需5.21G FLOPs运算量。这种轻量化设计使其可部署于移动设备等计算资源受限平台。

3.3 非参考损失函数

为实现零参考学习,我们设计了一组可微分非参考损失函数用于评估增强质量:

空间一致性损失(L_spa):
通过保持输入与增强图像局部区域差异来增强空间连贯性:


其中:

  • K为局部区域数量

  • Ω(i)表示中心区域i的上下左右四个邻域

  • Y和I分别代表增强图像与输入图像的局部区域平均强度值

  • 局部区域尺寸默认为4×4(实验表明对尺寸变化不敏感)

曝光控制损失(L_exp):

为抑制欠/过曝光区域,我们设计了曝光控制损失来调节曝光水平。该损失通过计算局部区域平均强度与理想曝光水平E的差距来实现:


其中:

  • M表示16×16非重叠局部区域数量

  • Y为增强图像局部区域平均强度值

  • 依据文献[23,24]将E设为RGB色彩空间的灰度值0.6(实验表明E∈[0.4,0.7]时性能差异不大)

色彩恒常性损失(L_col):

基于Gray-World假设[2](各通道色彩平均值应趋近灰色),该损失用于校正色彩偏差并建立三通道关联:


其中:

  • (p,q)∈{(R,G),(R,B),(G,B)}表示通道对

  • J^p代表增强图像p通道的平均强度值

光照平滑损失(L_tvA):

为保持相邻像素间的单调性关系,对曲线参数图A施加平滑约束:


其中:

  • N为迭代次数(N=8)

  • ∇_x和∇_y分别表示水平和垂直梯度运算

  • c∈{R,G,B}代表色彩通道

总损失函数:


其中W_col=0.5和W_tvA=20为各损失的权重系数。

4、实验

4.1 实现细节

Zero-DCE中的参数包括DCE-Net的深度和宽度以及迭代次数。图5展示了一个视觉示例。在图5(b)中,仅使用三层卷积层的Zero-DCE3−32−8就能产生令人满意的结果,这表明零参考学习的有效性。Zero-DCE7−32−8和Zero-DCE7−32−16在自然曝光和适当对比度下产生了最令人愉悦的结果。当将迭代次数减少到1时,如图5(d)所示,Zero-DCE7−32−1的性能明显下降。这是因为只有单次迭代的曲线调整能力有限。这表明我们的方法需要使用更高阶的曲线。我们选择Zero-DCE7−32−8作为最终模型,因为它在效率和恢复性能之间达到了良好的平衡。

基于CNN的模型通常使用自主采集的配对数据进行网络训练[5,17,28,30,32,33],而基于GAN的模型则需精心挑选非配对数据[6,11,12,16,35]。为充分发挥宽动态范围调整能力,我们在训练集中同时包含低光照和过曝光图像。具体采用SICE数据集Part1的360组多曝光序列训练DCE-Net,该数据集也被EnlightenGAN[12]部分采用。我们将Part1子集的3,022张不同曝光图像随机划分为训练集(2,422张)和验证集,并统一调整至512×512分辨率。

实验在NVIDIA 2080Ti GPU上基于PyTorch实现,设置如下:

  • 批大小:8

  • 卷积核权重:高斯初始化(均值0,标准差0.02)

  • 偏置项:常数初始化

  • 优化器:Adam(默认参数,固定学习率1e-4)

  • 损失权重:W_col=0.5,W_tvA=20

4.2 消融实验

4.2.1 损失函数贡献分析

图4展示了不同损失组合的训练效果:

  • 移除空间一致性损失L_spa会导致对比度下降(如云层区域)

  • 去除曝光控制损失L_exp将无法有效恢复暗部细节

  • 取消色彩恒常性损失L_col会引起明显色偏

  • 缺少光照平滑损失L_tvA会产生邻域不连续伪影

4.2.2 参数设置影响

图5对比了不同网络结构和迭代次数的效果:

  • Zero-DCE3-32-8(3层卷积)已能取得满意效果,验证零参考学习的有效性

  • Zero-DCE7-32-8和Zero-DCE7-32-16在曝光自然度和对比度上表现最佳

  • Zero-DCE7-32-1(单次迭代)因调整能力有限导致性能显著下降
    最终选择Zero-DCE7-32-8作为最佳效率-性能平衡方案。

4.2.3 训练数据影响

通过三种数据配置验证:

  1. Zero-DCELow:原训练集中900张低光图像

  2. Zero-DCELargeL:DARK FACE数据集9,000张低光图像

  3. Zero-DCELargeLH:SICE数据集Part1+Part2的4,800张多曝光图像

实验结果(图6)表明:

  • 仅使用低光数据(Zero-DCELargeL)会导致亮区过增强(如面部)

  • 增加多曝光数据(Zero-DCELargeLH)能显著改善暗部恢复
    为保持对比公平性,最终采用与同类方法相当的数据量,但更多数据可进一步提升视觉表现。

4.2 基准测试评估
我们将Zero-DCE与以下先进方法进行对比:

  • 传统方法:SRIE[8]、LIME[9]、Li等[19]

  • 基于CNN的方法:RetinexNet[32]、Wang等[28]

  • 基于GAN的方法:EnlightenGAN[12]
    所有对比结果均使用公开源码及推荐参数复现。

4.2.1 视觉与感知对比

测试集包含:

  • 标准数据集:NPE[29](84张)、LIME[9](10张)、MEF[22](17张)、DICM[14](64张)、VV(24张)

  • SICE数据集Part2子集:229组多曝光序列(仅采用每组前3-4张低光图像,共767对低光/正常光图像)

关键发现(图7):

  1. 逆光场景(如人脸):

  • Zero-DCE呈现自然曝光与清晰细节

  • 对比方法存在面部模糊(SRIE/LIME)或过曝伪影(RetinexNet)

  1. 室内场景:

  • 本方法同步增强暗部与保持原色

  • Li等[19]方法过度平滑,其他基线方法出现噪声放大与色偏(如墙面)

用户研究(表1):

  • 15位受试者对202张测试图像评分(1-5分)

  • 评估维度:曝光合理性/色彩保真度/纹理自然度

  • Zero-DCE在MEF/DICM/VV数据集上获得最高平均分(4.13/3.52/3.24)

感知质量指数(PI):

  • 采用超分辨率领域指标[1,21,25],数值越低质量越好

  • Zero-DCE平均PI值2.88,显著优于对比方法

(注:排除MIT-Adobe FiveK数据集[3]因其非专为低光增强设计)

4.2.2 定量对比分析

采用峰值信噪比(PSNR,dB)、结构相似性(SSIM)[31]和平均绝对误差(MAE)指标在SICE数据集Part2子集上进行量化评估。如表2所示,Zero-DCE在所有指标上均取得最优结果(PSNR 16.57dB,SSIM 0.59,MAE 98.78),尽管其完全不需要任何配对/非配对训练数据。得益于简洁的曲线映射形式和轻量级网络结构,本方法展现出显著的计算效率优势。表3显示,在1200×900×3尺寸的32张图像上,Zero-DCE平均处理时间仅0.0025秒(对比方法运行时间:EnlightenGAN 0.0078秒,RetinexNet 0.12秒)。

4.2.3 暗光人脸检测应用

基于DARK FACE数据集[37](含10,000张暗光图像)评估各增强方法对高层视觉任务的提升效果:

  1. 实验设置:

  • 使用WIDER FACE[34]预训练的DSFD人脸检测器[18]

  • 在6,000张训练/验证集图像上进行测试

  • 采用官方评估工具计算平均精度(AP)

  1. 关键结论(图8):

  • 所有增强方法均显著提升检测精度(相比未增强图像)

  • Zero-DCE与RetinexNet[32]表现最佳,且在高召回率区间优势更明显

  • 可视化案例显示,本方法能精准提亮暗区人脸同时保留正常曝光区域

注:传统方法仅提供CPU版本代码,基于GPU的对比方法均在NVIDIA 2080Ti平台测试。

结论

我们提出了一种用于低光图像增强的深度网络。该网络可以在没有参考图像的情况下进行端到端训练。这是通过将低光图像增强任务表述为图像特定的曲线估计问题,并设计一组可微分的无参考损失函数来实现的。实验表明,我们的方法在现有的光增强方法中表现优越。未来的工作中,我们将尝试引入语义信息以解决困难案例,并考虑噪声的影响。

阅读论文的时候还顺便看了一些文章,记录一下

图像增强论文精读笔记-Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement(Zero-DCE)-优快云博客

【LLIE专题】ZeroDCE: Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement-优快云博客 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值