LAN: Lightweight Attention-based Network for RAW-to-RGB Smartphone Image Processing LAN：用于 RAW 到 RGB

最新推荐文章于 2025-05-30 16:52:31 发布

原创

最新推荐文章于 2025-05-30 16:52:31 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #计算机视觉 #深度学习

摘要
智能手机拍摄的照片数量呈指数级增长。然而，智能手机在尺寸和成本方面的局限性对所采用传感器的质量产生了负面影响。与此同时，他们的计算能力也在稳步提升，允许使用更复杂的处理方法来增强图像。在之前的工作中，与传统和手工制作的方法相比，使用匹配的传感器输出和 DSLR 图像训练的深度神经网络已经显示出可以显着改善图像。我们提出了一种基于注意力的轻量级网络 (LAN)，它采用卷积层来学习输入镶嵌和无监督预训练策略。我们的方法在标准基准测试中得到验证，并证明在感知和保真度方面都优于最先进的方法，而不会影响智能手机设备上的 GPU 推理时间。我们的代码位于：github.com/draimundo/LAN
1. Introduction
智能手机摄影在过去几十年中一直在不断发展。最初，智能手机拍摄的图像质量不高，紧凑型相机主导了数码摄影的消费市场。到了2013年，智能手机的销量超过了数码相机，比例为10比1。如今，全球大部分的剧照都是用智能手机拍摄的。虽然通常宣传的输出分辨率相似，但智能手机拍摄的质量仍然不如数码单反相机（DSLR），后者通常具有更好的动态范围、色彩准确性和更少的数字噪音，仅此而已。
与单反相机相比，智能手机的一个缺点是，由于其结构紧凑，集成的镜头和传感器系统尺寸较小，导致信噪比（SNR）较差，并对（未经处理的）图像产生其他不良的物理影响。另一方面，智能手机的计算能力一直在稳步上升，允许使用更强大的方法来弥补硬件限制。
大多数嵌入相机的数字传感器都是基于拜耳滤光片马赛克，这是叠加在数字图像传感器上的彩色滤光片阵列 (CFA)，使特定像素对某些波长（主要是绿色、红色、蓝色）更加敏感。这允许成像器捕获场景的颜色信息，并输出 RAW 图像。然而，这种颜色的空间分离需要一个重建步骤，称为去马赛克，以获得在每个像素位置包含完整颜色信息的图像和最终的 RGB 图像。
在经典方法中，这种去马赛克步骤是图像信号处理 (ISP) 系统 [28] 的一部分，它还可以减轻传感器噪声的影响，调整色彩平衡，并提高整体图像质量。即便如此，后者仍受到传感器特性的限制，并且增加的处理通常会以噪声换取提供给最终用户的结果中缺乏细节。
在学习的ISP中，一个深度学习模型被训练为从智能手机传感器的低质量RAW输出中重现用单反相机拍摄的高质量图像，显示出比默认的智能手机输出有很大的改进。我们在以前的结果基础上，表明使用分层卷积层来学习输入的马赛克，极大地提高了清晰度，而没有大量增加移动推理的时间。此外，我们提出了一种无监督的方法，对经典的去马赛克图像进行网络预训练。
作为一个介绍性的例子，图1显示了在这项工作中遇到的不同输出之间的比较。在图1a中，智能手机ISP产生的输出显示了良好的对比度，但细节被水彩效果夸大了，这也冲淡了色调。图1b描述了由数码单反相机拍摄的相同场景，在训练过程中被用作基础真实。最后，图1c和1d显示了使用CSANet[10]获得的结果，这是移动人工智能2021年学习型智能手机ISP挑战赛（MAI21）[13]中质量最高的解决方案，以及所提出的解决方案。请注意色彩平衡和细节上的差异（尤其是在背景的百叶窗上可以看到）。
在这里插入图片描述
图 1. 不同输出的质量和一致性。最好在电子版上放大观看。
2. Related Work
在过去几年中，机器学习在RAW到RGB图像映射中的应用越来越流行，这也与最近智能手机计算能力的提升有关。到目前为止，研究一直集中在两个主要目标上：找到一个好的网络设计和训练过程以提高图像质量，以及使网络适应智能手机的计算限制。
智能手机图像增强是通过卷积神经网络 (CNN) 引入的，通过在智能手机-DSLR 图像对上进行训练，将智能手机的 RGB 输出映射到增强的 RGB 版本，如 DPED [14] 中所示。第一个 R

最低0.47元/天解锁文章