(论文篇)ContRail: A Framework for Realistic Railway Image Synthesis Using Stable Diffusion

论文链接:

[2412.06742] ContRail: A Framework for Realistic Railway Image Synthesis using ControlNet

(1)概述

        利用改进的 ControlNet(称为 ContRail)模型,生成高质量、逼真的铁路场景图像(railway scene images),这些图像是基于RailSem19 数据集进行训练的,“用扩散模型在电脑里‘合成’出新的铁路图像,看起来和 RailSem19 的真实照片非常像,用于辅助自动驾驶列车或铁路感知系统的研究。

(2)贡献

        本研究旨在为以下研究问题提供有意义的答案:
        我们能否在数据稀缺的铁路领域使用合成图像来提高场景理解智能模型的性能? 
        通过目视检查和FID最小化测量,铁路图像生成的理想条件表示是什么?

  1.         为了回答这些研究问题,我们提出了ContRail,这是一种为铁路场景理解领域量身定制的基于controlnet的方法,它利用了一种新的输入条件表示,结合了语义分割掩码和边缘图像。由于我们没有输入图像的字幕,我们实验了三种类型的提示(空的、固定的和使用BLIP2生成的)。我们进行了消融研究,以测量每个提出的组件的影响,并通过使用生成的数据训练语义分割模型并在真实样本上进行测试来展示合成图像的令人印象深刻的质量。

(3)概念

1)语义分割

        语义分割是一种计算机视觉任务,它包括为给定图像的每个像素分配类标签。与其他图像识别问题(包括图像分类和对象检测)相比,该任务的输出更加精细,因为标签附加到每个单独的像素上。语义分割可以是二元的,其中像素被分类为感兴趣的类的一部分或作为背景,或多类,其中每个像素有多个附加值,每个值表示像素是某一类的一部分的概率。这个任务的一个流行指标是交集/联合(Intersection over Union, IoU)。

2)潜在扩散模型

         扩散模型是一种无监督机器学习模型,用于估计一些观测数据的假设概率分布。这种模型通常被称为生成模型。这些模型的思想是通过一个称为扩散的过程,慢慢破坏观察到的数据分布中的结构,然后学习一个反向扩散过程,恢复该数据中的结构。
        使用均方误差来比较每个像素会导致图片中的微小差异,例如物体的小位移,物体的错误颜色等。由于这会导致较大的损失值,因此必须使用其他指标来衡量图片之间的差异。其中一个这样的度量是感知损失,它使用预先训练好的卷积神经网络,该网络已经熟练地从目标图片和预测图片中提取高级特征,以计算特征之间的均方误差。这种方法在计算上比较困难,会导致更高的问题复杂度。
        为了避免知觉损失的计算,Rombach等人引入了潜在扩散模型ldm。其主要思想是在输入的特征空间中进行扩散和反向扩散过程(而不是直接在图像空间上进行训练),并具有一种可以从特征构建原始输入的机制。输入空间通常被称为潜空间,它是一个低维空间,可以更快地训练负责反向扩散过程的网络。
        稳定扩散[26]模型证明了ldm的能力。它是在LAION-5B数据集上进行训练的,这是一个拥有超过58亿对图像和文本注释的大规模公共图像-文本数据集,使其成为目前最强大的模型之一。 

3)ControlNet

    虽然 Stable Diffusion 是一个功能强大且复杂的扩散模型(LDM),但在特定场景(如特定环境图像生成)中表现不佳,因为此类任务的数据分布往往与原训练数据分布不同。若直接对预训练的 LDM 进行微调以适应新的分布,容易出现模型生成结果重复、过拟合、模式崩塌(mode collapse)以及灾难性遗忘(catastrophic forgetting)等问题,尤其是在训练样本较少的情况下。为解决这一问题,研究者提出了 ControlNet,其核心思想是利用一种称为 HyperNetwork 的小型网络来影响大型网络(LDM)的权重,从而在不修改原模型参数的情况下,为模型添加额外的条件控制(如语义分割掩码、Canny 边缘、人类姿态等)。在结构上,ControlNet 会将原 LDM 的神经模块参数冻结,并克隆出一个可训练的副本,使其能够接收外部条件向量 c 作为输入。通过这种设计,冻结部分保留原模型在大规模数据上的知识,而可训练部分则在此基础上增强模型对特定条件输入的适应性。两部分通过“零卷积层”(1×1 卷积层)连接,以确保在训练初期不会引入噪声。由于 LDM 在自编码器的潜空间中执行扩散与反扩散操作,ControlNet 需通过一个小型卷积网络 E(⋅)将外部条件向量转换为与潜空间形状匹配的表示,再与原潜变量相加后进入后续网络。这种机制使得 ControlNet 能够在保持原模型泛化能力的同时,实现对特定任务的可控生成,其训练集通常由成对样本 (xi,ci) 构成,其中 ci为条件图像,xi为目标生成图像,二者在形状上保持一致,以确保特征映射的兼容性与有效性。
        现有很多图像合成模型,例如ControlNetT2I AdapterSCEdit。我们选择ControlNet,因为它的控制更精确。条件一步一步地指导生成过程,直接集成到扩散模型中。此外,ControlNet可以产生具有更复杂细节的高质量图像,当然在模型大小和处理时间方面成本很高。虽然这种权衡不容忽视,但我们的目标是展示合成图像如何帮助训练高性能分割模型。

4)BLIP-2

        BLIP-2 是一种能够同时理解视觉和文本信息并生成自然语言描述的多模态模型。其核心思想是将预训练的图像视觉 Transformer 作为冻结的图像编码器,用于提取图像特征;随后,这些特征会被输入到一个名为 Q-Former 的轻量级 Transformer 网络中。Q-Former 通过一组可学习的查询向量(learnable query vectors)从冻结的图像编码器中高效提取视觉信息,并充当图像模型与语言模型之间的桥梁。经过 Q-Former 处理后的输出会被输入到一个预训练的大型语言模型(LLM)中,后者利用强大的语言生成能力,根据前文上下文生成连贯的文本输出。凭借这种分层结构与高效特征对齐机制,BLIP-2 在多种任务上实现了最先进(state-of-the-art)的性能,包括图像标注与描述、图像问答以及基于文本的图像检索等任务。

(4)方法

        本文提出了一种基于ControlNet架构的真实铁路场景图像合成流水线。我们将分割掩码与实际图像的Canny边缘相结合,并实验各种类型的提示以确定导致最现实结果的配置。因此,我们的方法是双重的,一方面考虑图像条件,另一方面考虑提示条件。下图描述我们方法概述。

1)结合条件

        传统 ControlNet 在推理时需要针对每种条件(如分割掩码、Canny 边缘等)分别训练独立模型,效率低。而该方法通过在推理阶段融合多个条件输入,使网络能够同时利用多种互补信息进行细粒度控制。研究者在对 Stable Diffusion 模型进行微调时,将铁路领域的额外信息嵌入模型中。由于 Stable Diffusion 默认输入为三通道 RGB 图像,而 RailSem19 数据集中的语义分割掩码Canny 边缘图 均为单通道灰度图,因此作者将灰度图复制三次以匹配输入维度。经过实验,他们发现保持默认三通道输入效果优于修改通道数,因此采用了多条件合成通道策略:将分割掩码与 Canny 边缘图按不同组合方式填入三个通道中,如 Cmb12(边缘-掩码-掩码)、Cmb111(掩码-边缘-掩码)和 Cmb21(掩码-边缘-边缘),如下图所示。这种创新设计带来了两大优势:其一,只需训练单一模型即可同时处理多种条件输入,显著简化训练流程并节省计算资源;其二,联合条件输入可在扩散生成过程中提供多源引导,使模型在微调阶段能够更一致地整合不同信息源,从而生成更加连贯、结构合理的结果。相比之下,传统 ControlNet 需为每个条件单独训练模型,效率更低,因此该方法在性能与资源利用上更为高效与实用。

2)提示

        由于 Stable Diffusion 依赖文字描述来确定生成内容,因此作者采用 零样本图像到文本(zero-shot image-to-text) 的方法为数据集中的每张图像生成对应的描述语句,并选用了表现最优的 BLIP-2 模型 来生成这些文本提示,因为 BLIP-2 在多模态任务中具备高精度和强泛化能力。按照 ControlNet 作者的建议,他们在所有提示语后添加固定修饰词(decorator)“high quality, extremely detailed, 4K”,以提升生成图像的视觉质量。研究者设计了三种提示配置进行对比实验:① 不使用任何文本提示(No pr.),② 对所有图像使用相同固定提示(Fixed pr.),③ 使用 BLIP-2 自动生成的个性化提示(BLIP-2 pr.),其中第三种方式效果最佳。此外,他们还引入了负向提示(Negative prompts, Neg. pr.),例如“low quality image”、“bad anatomy”、“unrealistic rails”等,用于引导模型避开常见错误或低质量生成。这一系列实验验证了基于 BLIP-2 自动生成的文本提示结合负向提示,能够显著提高 ControlNet 在图像生成中的精度与真实感。

(5)实验

        我们的研究主要集中在两个关键方面:首先,ControlNet架构中不同参数如何影响图像生成过程;其次,这些生成的图像与真实图像结合在一起,在多大程度上增强了分割模型的训练和整体性能。通过详细分析和比较,我们的目标是展示在分割任务中集成合成数据的潜在好处和实际应用。

1)数据集

        本文使用RailSem19数据集进行训练和验证。为了将图像重塑为适合网络输入层长宽比的大小,将图像大小从1920x1080调整为1080x1080。虽然图像的左右边缘被切割以获得新的尺寸,但它们并不包含必要的信息,感兴趣的轨道位于图像的中心。

2)评价指标

本文评估生成图像质量时分别采用定性与定量评价方法以及相应的实验设计。在定性评估方面,我们通过人工视觉检查部分生成样本,以判断模型在重现真实铁路场景分布时的表现,尤其关注“铁轨质量”这一关键要素。早期实验中,模型生成的图像常出现“双轨(doubled rails)”和“破碎轨(splintered rails)”等异常,但通过改进权重设置和增加训练轮次(epochs),这些问题显著减少,生成画面的整体质量得到了明显提升。其次,在定量评估方面,我们采用 Fréchet Inception Distance(FID) 指标来衡量生成图像与真实图像分布之间的差异。FID 通过 InceptionNetV3 网络提取 2048 维特征后,计算两者分布的 Fréchet 距离,数值越低代表生成质量越高。然而,FID 在安全关键领域并不完全可靠,因为 InceptionNetV3 的特征估计具有偏差和不稳定性,无法完全反映模型的真实性能。除独立评估生成图像外,研究者还进一步通过下游任务验证来检验生成图像的实际价值:他们将真实与合成样本混合用于训练语义分割模型,并仅在真实图像上进行测试,采用 Intersection-over-Union(IoU)(又称 Jaccard metric)作为性能度量。该设计旨在验证生成图像是否能有效提升模型在真实数据上的识别与分割能力。

3)图像生成

实验主要从两个维度展开:条件类型(condition type)文本提示类型(prompt type)。在条件输入方面,作者分别使用了单一条件输入与多重条件输入:单一条件包括来自 RailSem19 数据集的灰度语义分割掩码和由经典Canny算法提取的边缘图;多重条件则通过将掩码与边缘图在不同通道组合(Cmb12、Cmb21、Cmb111)得到。文本提示方面,设置了四种类型:无提示(No prompt)、固定提示(Fixed prompt)、由 BLIP-2 自动生成的提示(BLIP-2 prompt)以及负向提示(Negative prompt),并在所有提示后附加增强描述词(“high quality, extremely detailed, 4K, HQ”)以提升生成质量。

在实验配置上,共使用 RailSem19 数据集的 8500 张图像,按 80:20 比例划分为训练集(6800 张)和验证集(1700 张),图像统一缩放为 512×512。模型(称为 ContRail)在 NVIDIA RTX 4090 GPU(24GB VRAM, 56GB RAM) 上训练 13 个 epoch,批大小为 4,共进行 22100 步训练,每个实验约耗时 7 小时。性能通过 Fréchet Inception Distance (FID) 进行评估,每种配置单独运行一次并记录结果。

下表中报告了验证集和生成的图像之间的FID结果。结果显示,整体 FID 分数差异较大,其中最佳表现来自 Cmb111(掩码-边缘-掩码组合)且无文本提示 的实验。若仅使用语义分割掩码作为条件输入,则配合 BLIP-2 提示 可获得最佳结果。负向提示对结果的影响呈双重性:在多条件组合下 FID 反而变差,但在单条件时变化不大。进一步分析表明,分割掩码条件的生成效果总体优于 Canny 边缘图条件,因为掩码包含更多语义信息,而边缘图仅提供轮廓,容易与类似形状(如电线杆、树木)混淆。

虽然从FID的角度来看,在没有提示的情况下,在Cmb111上获得了最低的分数,但在视觉上,使用原始掩模时获得了最逼真的高质量图像。这是由RailSem19中的一些低质量、杂乱或复杂的光照场景造成的。其中一些是模糊的、较暗的或分辨率较低的。因此,我们认为较低质量的图像样式比具有真实表示的高质量图像产生更好的分数,这些图像离验证数据分布的平均值更远。

在视觉层面上,作者选取了以下三组代表性结果:

下图为没有提示的Cmb111(这导致了最佳的定量结果)。其中,生成的合成图像细节较少,缺乏诸如阴影或光照效果等非关键性信息。这些图像更专注于呈现逼真的铁路场景,主要体现在对铁轨、轨道以及道岔等要素的准确生成上。

下图为有BLIP2提示的原始掩码。可以注意到铁轨的连续性、阴影效果以及中间图像中的道岔细节。然而,第一张图中的交通信号灯并不像预期那样逼真,这可能是因为该类别的样本数量较少所致。

下图为有BLIP2提示和负向提示的原始掩码。加入负面提示词后,整体效果并未出现明显提升,除了交通标志看起来变得更加不真实之外。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值