
UltraFusion : 超高动态的多曝光融合(2025)
本文将对《UltraFusion: Ultra High Dynamic Imaging using Exposure Fusion》这篇文章进行解读,该文提出了一种名为 UltraFusion 的新方法,用于处理具有极大曝光差异(高达9 stops)的高动态范围(HDR)图像融合问题。其核心思路是将曝光融合重新建模为一个**引导式图像修复(guided inpainting)**问题:将过曝图像作为基础,利用欠曝图像作为“软引导”,填充过曝区域中丢失的高光信息。参考资料如下:
参考资料如下:
[1]. 论文地址
[2]. 代码地址
专题介绍
在传统的成像与显示技术中,动态范围受限一直是困扰领域内的一大难题。无论是阳光明媚的户外场景,还是光影交错的室内环境,常规设备往往难以同时精准地呈现高光区域的细节与阴影部分的丰富层次,导致画面要么过曝丢失细节,要么过暗一片模糊,无法完整地还原真实世界的视觉效果。然而,HDR(High Dynamic Range)算法技术的出现,犹如一场视觉革命,它突破了这一瓶颈,通过一系列复杂而精妙的算法处理,极大地拓展了图像的动态范围,让画面的高光部分更加耀眼夺目,同时阴影区域也得以清晰展现,细节纤毫毕现。
随着科技的不断进步,HDR算法技术也在持续演进与创新。从早期的简单多帧合成算法,到如今融合了人工智能、深度学习等前沿技术的智能HDR算法,配合硬件层面的突破与创新,其性能与效果得到了质的飞跃。这些先进的算法能够自动识别不同场景的特点,智能地调整图像的亮度、对比度、色彩饱和度等参数,实现更加精准、自然的HDR效果呈现。同时,针对不同的应用场景,如视频拍摄、安防监控、医疗影像等,HDR算法也在不断优化与定制,以满足多样化的专业需求,展现出强大的适应性与实用性。
本专题旨在跟进和解读HDR技术的发展趋势,为读者分享有价值的HDR方法,欢迎一起探讨交流。
一、研究背景
相机传感器的动态范围远小于真实世界。为了捕捉HDR场景,通常采用多张不同曝光的图像进行融合。然而,现有方法(尤其是曝光融合)在处理极大曝光差异(如9档)和动态场景时效果不佳,主要面临三大挑战:
- 光流对齐困难:大亮度差异会导致光流等对齐算法失效,容易产生“鬼影”。如下图右侧
- 物体的成像表征受曝光影响:大多数HDR算法假设曝光不足的图像只是正常图像的一个较暗的版本。但同一物体在不同曝光下外观可能不同,导致融合结果不自然。如下图左侧船舶
- 色调映射难题:部分算法融合后为HDR图像(高位宽无法直接显示),需要压缩到LDR(Low Dynamic Range)显示,通常会做Tone Mapping操作,这一步也会引入额外问题,如偏色或细节损失。

现有技术及其优劣势:
| 技术方案 | 方法描述 | 优势 | 劣势 |
|---|---|---|---|
| HDR重建 (HDR Reconstruction) | 通过逆向相机响应函数(CRF)在HDR域融合图像,再进行色调映射。 | 理论上能获得更精确的HDR信息。 | 流程复杂,依赖CRF和色调映射算法;图像对齐困难时易产生伪影;色调映射效果常不理想。 |
| 多曝光融合 (MEF) | 直接在LDR域融合图像,绕过CRF和色调映射。 | 流程简单,计算效率高。 | 对图像对齐极其敏感;大曝光差异下无法处理;动态场景中鬼影问题严重。 |
| 基于扩散模型的HDR/修复方法 | 利用扩散模型的强大生成能力进行HDR去鬼影或图像修复。 | 能生成自然、高质量的图像。 | 多数方法未利用不同曝光图像信息,导致结果可靠性不足;或直接输入双图,无法解决对齐和引导问题。 |
为了突破现有技术的瓶颈,实现更真实、更高质量的HDR成像(特别是在具有挑战性的夜间、强光对比或动态场景中)。作者提出了“UltraFusion” ,将目标建模成一个引导修复问题,其核心创新为两个方面:
-
“软引导”机制: 使用欠曝图像作为软引导(soft guidance),而非硬约束,这使其对光照变化和对齐错误不敏感,显著提升了在动态场景下的鲁棒性。
-
两阶段框架创新:
-
预对齐阶段:使用光流和一致性检查对欠曝图像进行预对齐并遮盖遮挡区域。
-
引导修复阶段:基于Stable Diffusion模型,设计了两个关键模块:
-
分解与融合控制分支 (DFCB):将欠曝图像分解为结构和颜色信息,通过多尺度交叉注意力机制将其与过曝图像特征融合,引导修复过程。
-
保真度控制分支 (FCB):在VAE解码器路径上注入特征,以保留输入图像的细节和色彩,防止修复过程中产生结构变形和纹理失真。
-
-
二、方法细节
方案概述:给定一张过曝图 I o e I_{oe} Ioe和欠曝图 I u e I_{ue} Iue,将过曝图作为参考图像,同时利用欠曝图的信息作为引导,在过曝图的高光区域中修复缺失的信息。
基于此思想,作者设计了一个2-stage网络,由预对齐阶段和引导修复阶段组成。
stage1:预对齐

该阶段目标是输出粗对齐版本的 I u e → o e I_{ue \rightarrow oe} Iue→oe,作为后续引导修复阶段的软引导。具体分为以下几步:
-
亮度匹配:首先通过强度映射函数调整欠曝图像的亮度分布,使其与过曝图像更接近,以利于后续光流估计。
-
光流估计:使用预训练的RAFT网络,估计过曝图像到欠曝图像和欠曝图像到过曝图像的双向光流。双向光流信息用来做后续的一致性检查。
-
对齐操作:将 I u e I_{ue} Iue向 I o e I_{oe} Ioe做Warp对齐,为了避免遮挡边界的鬼影,利用前向-后向一致性检查,识别出遮挡区域 M M M,并用Mask将其在对齐后的欠曝图像中屏蔽掉。
其中前向-后向一致性检查是指:如果一个像素点在第一帧中,其在另一帧的对应位置(根据光流)再反向映射回第一帧时,与原始位置不一致,就说明该像素在第一帧中是被遮挡的。
经如上操作,最后输出一个经过粗略对齐、遮挡区域被屏蔽的欠曝图像
I
u
e
→
o
e
I_{ue \rightarrow oe}
Iue→oe,公式表示如下:
I
u
e
→
o
e
=
(
1
−
M
)
⋅
W
(
I
u
e
,
f
o
e
→
u
e
)
I_{ue \rightarrow oe} = (1 - \mathcal{M}) \cdot \mathcal{W}(I_{ue}, f_{oe \rightarrow ue})
Iue→oe=(1−M)⋅W(Iue,foe→ue)
stage2:引导式修复

该阶段以预训练的stable diffusion V2.1为基模型。输入为过曝图,预对齐后的欠曝图和扩散Latent z t z_t zt。输出为重构后的结果。
网络结构部分有两个创新之处,分解与融合控制分支(DFCB)和保真度控制分支(FCB)
🟥DFCB分支
即在VAE编码器和扩散U-net之间增加了一个DFCB分支,可训练。

-
分解:过暗图直接做软引导不太合适,强度太弱会被模型忽略。因此将欠曝图像分解为结构信息和颜色信息(UV通道),使其对亮度变化鲁棒,不会因为亮度较暗而丢失关键信息。其中结构信息通过归一化亮度通道获得,类似SSIM,具体公式如下。
S u e = ( Y u e − μ ( Y u e ) ) σ ( Y u e ) S_{ue} = \frac{(Y_{ue} - \mu(Y_{ue}))}{\sigma(Y_{ue})} Sue=σ(Yue)(Yue−μ(Yue))
其中, μ \mu μ是均值, σ \sigma σ是方差, Y Y Y是YUV的亮度通道。 -
特征提取:使用训练好的结构和颜色提取器(GE Block,简单的卷积层即可)提取多尺度特征,做进一步编码。
-
特征融合:参考ControlNet,用Denoising U-net里的编码器和中间块作为主提取器,也就是图中的ME模块。通过多尺度交叉注意力机制(如下图),将提取的结构和颜色特征注入到扩散U-Net的对应层级,实现引导修复功能。这确保了修复出的高光区域既保留于欠曝图像的结构和颜色,又能与过曝图像的上下文自然融合。

从图中可以看出,会先对的结构和颜色特征进行合并,然后再计算attention,且采用了通道注意力。
🟥FCB分支
该模块主要解决VAE编码-解码过程中可能引入的纹理失真和结构变形问题,效果如下图所示。

FCB通过向VAE解码器中注入特征来减轻纹理失真。它与DFCB具有相似的架构,主要区别有两点:
- FCB的主提取器采用与VAE编码器相同的结构,以便为解码器提供对应的“快捷连接”
- FCB的主提取器直接将过曝光图像作为输入。
为了训练保真控制分支,需冻结预训练的VAE Encoder和Decoder,并将真值编码到潜空间,在推理过程中模拟去噪后的潜特征z0。再将过曝和粗对齐的欠曝图像输入FCB提取特征,最终通过VAE解码器重建图像。通过最小化重建图像与真实图像的L1损失来训练FCB。

这样做,能够为VAE解码器提供更真实可靠的结构和色彩信息,确保最终输出的高保真度。
总而言之,通过这样的双阶段设计,逐步实现了对齐、引导和重建过程,并通过遮挡Mask、DFCB和FCB来保证修复区域的结构颜色的真实性,且无鬼影无瑕疵。
训练数据合成
为上述架构准备合适的数据集也是一种挑战。理想情况下需要一个大规模的HDR数据集,满足以下几点:
- 覆盖不同的动态场景。
- 具有高达9 stops的曝光差。
- 具有融合结果的ground truth。
为啥要强调覆盖9档(512x)差异,一方面凸显此算法的能力强;另一方面,一些具有挑战性的夜间场景确实需要高达9档的曝光差异才能覆盖全动态范围。
没有现成数据,只能自己制作,整个合成过程如图,分为几个步骤。

步骤1:从视频数据集中采样动态帧
为了模拟真实世界中的“动态场景”,特别是包含相机或物体运动的场景。从视频数据集(Vimeo-90K)中随机抽取一个包含N帧的视频序列。选取该序列中的第一帧和最后一帧作为一对“动态输入”,来实现大运动建模。
步骤2:估计光流并生成伪遮挡掩码
使用预训练的光流网络(如RAFT)来估计两个选定帧的双向光流。通过前向-后向一致性检查来识别出遮挡区域。得到一个伪遮挡掩码(M)。
步骤3:从静态数据集中采样欠曝图像块,合成“伪预对齐”输出
从高质量的静态多曝光数据集(SICE)中随机采样一张欠曝图像块。对伪遮挡掩码resize至与图像块相同大小,并与之合成,得到一个伪预对齐”输出
- 这个合成的图像块,其“非遮挡”区域包含了来自静态数据集的高质量欠曝信息;其“遮挡”区域则被遮罩,模拟了在真实动态场景中,由于运动导致的、在过曝图像中无法获取信息的区域。
最终数据集形式
SICE中每个曝光组合中挑选最亮和最暗的图像作为数据集输入对,还有对应的GT数据。其中最暗数据用上述方式来生成伪预对齐结果。
三、实验论证
作者自建了更具挑战性的UltraFusion基准数据集(100对实拍图像)
- 曝光差大,高达9 stops
- 场景多样,白天/夜晚,室内/室外,具有更真实的运动
- 采集设备多样,多款单反多款手机。

如上所示,基准涵盖了广泛的曝光差异和多样的曝光时间,可以用于有效地测试HDR方法的鲁棒性。
在三个数据集上评估:静态的MEFB数据集、动态的RealHDRV数据集和UltraFusion基准数据集
与多种最先进的HDR重建方法(如HDR-Transformer, SCTNet)和多曝光融合方法(如Deepfuse, U2Fusion, HSDS-MEF, TC-MoA)进行比较。
评价指标:
- 非参考指标:用于评估无ground truth数据集的图像质量,包括 MUSIQ, DeQA-Score, PAQ2PIQ, HyperIQA。
- 结构保持指标:MEF-SSIM(用于静态数据集,评估结构保留)。
- HDR特定指标:TMQI(用于动态数据集,评估融合结果与HDR ground truth的结构相似性和自然度)。
- 主观评价:在UltraFusion基准数据集上进行用户研究。
3.1 定量结果
在所有数据集和所有指标上,UltraFusion均取得了最先进的性能。感知度和保真度都较好。

3.2 定性结果
- 在静态场景中,UltraFusion能更好地保留细节和结构,同时保证视觉质量,避免了HDR方法的细节丢失和MEF方法的不自然过渡。

- 在动态场景中,UltraFusion的优势最为明显,其结果几乎无鬼影伪影,而其他方法(尤其是MEF方法)则普遍存在明显的鬼影和模糊。


3.3 消融实验
证明了预对齐、DFCB和FCB三个关键组件都对最终性能至关重要。移除任何一个组件,性能都会显著下降。


3.4 有趣的实验
UltraFusion可拓展至一般图像融合,为了说明这种潜力,作者探索了一个额外的有趣的演示来融合不同相机在不同位置拍摄的两张不相关的图像。如图所示,UltraFusion成功地将月球( b )或蓝天( c )复制到过度曝光的图像中,或许能激发许多有趣的潜在应用。

这个功能虽然很有意思,不过似乎需要有过曝区域,得跟过曝区域匹配起来。
四、总结和思考
UltraFusion通过将曝光融合问题重新定义为引导式图像修复,成功克服了以往技术在处理超大曝光差异和动态场景时的固有缺陷。
其核心创新在于利用欠曝图像作为“软引导”,结合强大的扩散模型先验,以及精心设计的分解-融合控制分支和保真度控制分支,实现了鲁棒、自然、无伪影的高质量图像融合。附录中还给出了3张曝光的合成思路,比较容易类推。
亮点总结:
-
突破性性能: 能够处理高达9档曝光差异的极端场景。
-
卓越的鲁棒性: 在包含大运动和遮挡的动态场景中表现优异,几乎无鬼影。
-
自然的输出: 直接生成视觉上自然、美观的LDR图像,无需额外的色调映射步骤。
-
数据合成创新: 设计了巧妙的合成数据流水线,利用静态多曝光数据集和视频数据集来训练模型处理动态场景。
-
可扩展性: 方法框架灵活,可轻松扩展至处理3张或更多曝光图像。还可以用于常规图像融合。
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。
1626

被折叠的 条评论
为什么被折叠?



