12/18号将迎来本人研究生生涯第一次组会汇报,先简单做一些记录吧
一、论文中所用评价指标
PSNR↑:峰值信噪比
SSIM↑:结构相似性
MS-SSIM↑:多尺度结构相似性
LPIPS↓: 可学习感知图像块相似度
MSE↓:均方误差
二、要解决什么问题
目前,基于多模态的方法已被广泛研究以提高模型性能[22,35,37,38,42]。在计算机视觉和场景理解领域[41,45],RGBD数据集在推进各种多模式应用的能力方面发挥着关键作用。以前的RGBD数据集主要集中在3D计算机视觉任务上。多年来,研究人员为开发多样化和全面的RGBD数据集做出了重大贡献,为3D物体识别[28]、3D场景理解[12]和3D语义分割[9]等任务的算法提供了便利。一个著名的数据集是NYU Depth V2[31]数据集,它包含由Kinect传感器捕获的室内场景,提供RGB图像以及相应的深度图。另一个突出的数据集是SUN RGB-D[32]数据集,它提供了大量的室内场景,并为对象实例和房间布局提供了精确的注释。这些数据集不仅促进了计算机视觉研究的进步,而且还作为评估RGBD任务范围内算法有效性的基准资源。深度图受光照变化和纹理损失的影响较小,我们的LED数据集首次尝试引入深度信息的优势来解决LIE任务中的问题。
三、问题怎么解决的
1.构建LED数据集
为了构建LED,我们从在iOS上使用ARKit构建相机应用程序开始。ARKit是苹果公司开发的一个框架,用于在iOS设备上创建增强现实(AR)体验。它使开发人员能够将沉浸式AR内容集成到他们的应用程序中,将数字元素与设备摄像头捕获的现实环境相结合。在本文中,我们主要使用ARKit访问iPhone后置摄像头旁边的LiDAR设备,从而在摄影过程中同时捕获深度信息。与传统的双目RGBD相机或基于飞行时间(ToF)的相机不同,iPhone的激光雷达采用脉冲激光束,更稳定,可以进行更远距离的捕捉。根据ARKit的官方文件,iPhone上的激光雷达可以达到大约5米的距离。在拍摄弱光图像时,与之前的研究类似[3,4,40],我们使用iOS API调整相机的曝光时间和ISO,降低亮度,模拟弱光条件。对于每个场景,我们的数据收集过程包括:(1)将手机固定到位;(2)使用默认相机配置拍摄正光图像,同时记录深度图;(3)调整相机参数,在弱光条件下进行图像采集。
为了确保每张图像都包含有意义的深度信息,在捕获过程中,我们确保离相机最近的物体与相机的最大距离为3米。为了增强数据集的平衡性,我们捕获了包括室内和室外环境的场景,并将其数量控制为大致相等。此外,为了最大限度地提高数据多样性,我们每个场景只捕获一张图像,并且我们在调整曝光时间和ISO时引入随机性,从而最大限度地减少模型利用模式的机会。 此外,我们的场景捕获也分布在一天中的各个时间段。在收集完所有数据后,由于iPhone上深度图的最大分辨率只支持768 × 576,我们统一调整了低光和正光图像的分辨率,以匹配深度图的大小。 我们还在深度图上执行Min-Max归一化。表1显示了我们的LED和以前的LIE数据集之间的比较。可以发现,LED是目前唯一支持多模态低光图像增强并附加深度信息的器件。
2.设计LEDN框架以及其中每个模块的作用
LEDN是一种基于编码器-解码器的神经网络,首先使用编码器层对输入的弱光图像进行编码和下采样,然后使用相同数量的解码器层对隐藏状态逐层进行解码和上采样。受U-Net[29]的启发,我们还在同一层的编码器和解码器之间添加了一个跳过连接。最后,应用RGB预测层来估计正常光照条件下的颜色。在LEDN中,我们引入了三个额外的组件来将深度信息整合到低光图像恢复中。首先,在将原始弱光图像输入到图像编码器之前,我们使用基于Sobel算法[16]的深度边界感知(deep - Boundary-Aware, DBA)模块从深度图中提取物体的边缘信息,得到二值掩模图像,然后将其与原始图像拼接,赋予输入信息边缘感知能力。 在低光图像中,物体的边缘往往不清晰,但深度图尽管缺乏颜色和照明信息,但提供了准确的边缘信息,这种边缘信息可以用于帮助恢复图像。
其次,除了图像编码器之外,这里我们使用相同数量的深度编码器对深度图进行逐层编码。设计了多模态傅里叶卷积(Multimodal Fourier Convolution, MFC)模块,将图像和深度特征融合在同一层,从而将深度信息整合到RGB图像中。我们模型的最后一个主要创新是分层特征聚合(LFA)模块。在LFA中,我们不是只使用最后一个解码器的输出作为预测的恢复图像,而是使用所有三个解码器层的输出来获得正光图像。 由于从底层到顶层的每一层都有不同的接受域,而每个接受域对于图像恢复都是至关重要的,因此这里我们使用混合专家(MoE)来聚合这三层的特征,从而得到最终的输出。
四、组会中老师提出的问题以及指点(组会后更新)
组会顺利🙏。。。。。。
顺利结束,写写本次组会的几个问题吧
1.编码器和解码器是什么结构的?
老师论文里没给,只说了是编码器-解码器型的神经网络,代码也没开源
2.讲讲DBA模块,有没有给阈值具体的值
DBA模块是基于索贝尔算子的,有两组3x3的矩阵,分别对深度图水平方向和垂直方向进行平面卷积得到各自方向上的梯度,然后计算公式并通过max函数将梯度归一化。若梯度值大于阈值则设为1,否则设为0。阈值论文里没提,代码也没开源。
3.为什么要用快速傅里叶卷积
论文里说是为了更好地提取全局特征,具体为啥用这个我也不太清楚。(听师姐说更多用transformer什么的,下去得好好做好功课。)