组会汇报经验_组会汇报代码-优快云博客

本文链接：https://blog.youkuaiyun.com/ymmyym/article/details/144514916

12/18号将迎来本人研究生生涯第一次组会汇报，先简单做一些记录吧

一、论文中所用评价指标

PSNR↑：峰值信噪比

SSIM↑：结构相似性

MS-SSIM↑：多尺度结构相似性

LPIPS↓：可学习感知图像块相似度

MSE↓：均方误差

二、要解决什么问题

目前，基于多模态的方法已被广泛研究以提高模型性能[22,35,37,38,42]。在计算机视觉和场景理解领域[41,45]，RGBD数据集在推进各种多模式应用的能力方面发挥着关键作用。以前的RGBD数据集主要集中在3D计算机视觉任务上。多年来，研究人员为开发多样化和全面的RGBD数据集做出了重大贡献，为3D物体识别[28]、3D场景理解[12]和3D语义分割[9]等任务的算法提供了便利。一个著名的数据集是NYU Depth V2[31]数据集，它包含由Kinect传感器捕获的室内场景，提供RGB图像以及相应的深度图。另一个突出的数据集是SUN RGB-D[32]数据集，它提供了大量的室内场景，并为对象实例和房间布局提供了精确的注释。这些数据集不仅促进了计算机视觉研究的进步，而且还作为评估RGBD任务范围内算法有效性的基准资源。深度图受光照变化和纹理损失的影响较小，我们的LED数据集首次尝试引入深度信息的优势来解决LIE任务中的问题。

三、问题怎么解决的

1.构建LED数据集

为了构建LED，我们从在iOS上使用ARKit构建相机应用程序开始。ARKit是苹果公司开发的一个框架，用于在iOS设备上创建增强现实（AR）体验。它使开发人员能够将沉浸式AR内容集成到他们的应用程序中，将数字元素与设备摄像头捕获的现实环境相结合。在本文中，我们主要使用ARKit访问iPhone后置摄像头旁边的LiDAR设备，从而在摄影过程中同时捕获深度信息。与传统的双目RGBD相机或基于飞行时间（ToF）的相机不同，iPhone的激光雷达采用脉冲激光束，更稳定，可以进行更远距离的捕捉。根据ARKit的官方文件，iPhone上的激光雷达可以达到大约5米的距离。在拍摄弱光图像时，与之前的研究类似[3,4,40]，我们使用iOS API调整相机的曝光时间和ISO，降低亮度，模拟弱光条件。对于每个场景，我们的数据收集过程包括：(1)将手机固定到位；(2)使用默认相机配置拍摄正光图像，同时记录深度图；(3)调整相机参数，在弱光条件下进行图像采集。
为了确保每张图像都包含有意义的深度信息，在捕获过程中，我们确保离相机最近的物体与相机的最大距离为3米。为了增强数据集的平衡性，我们捕获了包括室内和室外环境的场景，并将其数量控制为大致相等。此外，为了最大限度地提高数据多样性，我们每个场景只捕获一张图像，并且我们在调整曝光时间和ISO时引入随机性，从而最大限度地减少模型利用模式的机会。此外，我们的场景捕获也分布在一天中的各个时间段。在收集完所有数据后，由于iPhone上深度图的最大分辨率只支持768 × 576，我们统一调整了低光和正光图像的分辨率，以匹配深度图的大小。我们还在深度图上执行Min-Max归一化。表1显示了我们的LED和以前的LIE数据集之间的比较。可以发现，LED是目前唯一支持多模态低光图像增强并附加深度信息的器件。

2.设计LEDN框架以及其中每个模块的作用

LEDN是一种基于编码器-解码器的神经网络，首先使用编码器层对输入的弱光图像进行编码和下采样，然后使用相同数量的解码器层对隐藏状态逐层进行解码和上采样。受U-Net[29]的启发，我们还在同一层的编码器和解码器之间添加了一个跳过连接。最后，应用RGB预测层来估计正常光照条件下的颜色。在LEDN中，我们引入了三个额外的组件来将深度信息整合到低光图像恢复中。首先，在将原始弱光图像输入到图像编码器之前，我们使用基于Sobel算法[16]的深度边界感知（deep - Boundary-Aware， DBA）模块从深度图中提取物体的边缘信息，得到二值掩模图像，然后将其与原始图像拼接，赋予输入信息边缘感知能力。在低光图像中，物体的边缘往往不清晰，但深度图尽管缺乏颜色和照明信息，但提供了准确的边缘信息，这种边缘信息可以用于帮助恢复图像。
其次，除了图像编码器之外，这里我们使用相同数量的深度编码器对深度图进行逐层编码。设计了多模态傅里叶卷积（Multimodal Fourier Convolution， MFC）模块，将图像和深度特征融合在同一层，从而将深度信息整合到RGB图像中。我们模型的最后一个主要创新是分层特征聚合（LFA）模块。在LFA中，我们不是只使用最后一个解码器的输出作为预测的恢复图像，而是使用所有三个解码器层的输出来获得正光图像。由于从底层到顶层的每一层都有不同的接受域，而每个接受域对于图像恢复都是至关重要的，因此这里我们使用混合专家（MoE）来聚合这三层的特征，从而得到最终的输出。