语义分割-FCNs in the wild: Pixel-level adversarial and constraint-based adaptation 对抗方法实现不同数据集语义分割

下载地址

0.摘要

用于密集预测的全卷积模型已被证明适用于广泛的视觉任务。这样的模型在有监督的环境中表现良好,但在人类观察者看来温和的领域转移下,表现可能会出奇地差。例如,在一个城市进行训练并在不同的地理区域和/或天气条件下对另一个城市进行测试可能会由于像素级分布的变化而导致性能显着下降。在本文中,我们介绍了第一个域自适应语义分割方法,提出了一种无监督的对抗性方法来解决像素预测问题。我们的方法包括全局和特定类别的适应技术。全局域对齐是使用具有完全卷积域对抗性学习的新型语义分割网络执行的。这个最初适应的空间然后通过约束弱学习的泛化实现类别特定的适应,空间布局从源域到目标域的显式转移。我们的方法在多个大型数据集的不同设置上优于基线,包括适应各种真实的城市环境、不同的合成子域、从模拟环境到真实环境,以及新的大型行车记录仪数据集。

1.概述

语义分割是各种应用程序的关键视觉识别任务,从机器人导航和自动驾驶汽车等自主代理任务,到绘制和分类自然世界。因此,最近已经引入了大量的工作来解决使用像素级标注图像来训练卷积网络的监督语义分割问题。
虽然在同一数据源上训练和评估的分割模型的性能正在提高,但对这些模型在新的相关领域的适用性的研究还很有限。在考虑适应视觉域进行分类时,面临的许多挑战,如外观、光照和姿势的变化,也在考虑适应语义分割时出现。此外,在考虑本地化任务的识别时,一些新因素显得更加突出。在分类和分割中,类的流行程度可能在不同的领域之间有所不同,但是这种差异在语义分割应用程序中可能会被夸大,因为一个单独的对象类现在可能在一个单独的场景中出现多次。例如,自动驾驶应用的语义分割将聚焦于具有不同大小对象的户外街景,这些对象的分布可能因城市或行车路线而异;此外,外观统计数据在调整仅使用室内场景图像训练的人识别模型时可能会有相当大的差异。此外,像素级的注释收集起来既昂贵又繁琐,这使得学习在相关设置之间共享和传递信息变得特别有吸引力。
在本工作中,我们提出了第一种无监督域自适应方法,用于跨图像域传输语义分割模糊神经网络。我们的方法的第二个贡献是将全局和局部联合方法结合起来,使用全局和局部类别的适应技术,这些技术本身就是创新贡献。我们使用卷积域对抗训练技术,使用先前图像级别分类方法的一种新扩展,对源数据和目标数据的全局统计数据进行对齐。给定一个域对齐表示空间,我们引入了一个可推广的约束多实例丢失函数,该函数扩展了弱标签学习,但可以应用于目标域而不需要任何额外的注释,并显式地从带标签的源数据集传输类别布局信息。
我们使用多个大规模的数据集来评估我们的方法。我们首先利用最近发布的GTA5和SYNTHIA数据集的合成驱动器摄像头数据,以检查cityscape中从模拟图像到真实图像的巨大适应性转变。接下来,我们在SYNTHIA数据集中探索跨季节适应的领域转移。然后我们将重点放在现实世界中不同城市的适应性上。我们在cityscape数据集内对跨城市适应进行了详细的定量分析。
本文的最后贡献是介绍了一个新的无约束驱动凸轮数据集的语义分割,伯克利深度驱动分割(BDDS)。下面我们展示了从城市景观城市到BDDS中城市的初步定性适应结果。在所有这些研究中,我们证明了我们的自适应算法在没有任何目标标注的情况下提高了目标语义分割的性能。

2.相关工作

2.1.语义分割

语义分割是计算机视觉的一个关键任务,已经在大量的出版物中进行了研究。随着大规模图像分类的成功,目前大多数语义分割模型都使用了一些卷积网络结构,最近很多方法都使用全卷积网络将输入的RGB空间映射到语义像素空间。这些模型很有吸引力,因为它们具有直接的端到端功能,可以使用反向传播进行训练。原始的FCN公式后来使用扩展卷积和后处理技术(如马尔可夫/条件随机场)进行了改进。
由于收集像素级监督的高成本,相关的工作已经探索了使用弱标签(通常是定义每个类存在/不存在的图像级标签)来提高语义分割性能。Pathak等人[26]和Pinheiro等人[27]将这个问题建模为多实例学习(MIL),并在学习过程中加强自信预测。[24]提出了一种改进方法,利用EM算法更好地建模图像分割的全局属性。Pathak等人反过来推广了这项工作,他们提出了一种约束CNN,能够对标签空间(即存在/不存在,百分比覆盖)[25]上的任何线性约束进行建模。在最近的另一篇论文[15]中,Hong等人使用辅助切分将语义切分推广到只有弱标签信息的类别
从域自适应的角度来看,这些方法都假设在训练过程中源域和目标域都存在弱标签。在这项工作中,我们考虑了一个相关的,但不同的学习场景:在源领域中可以使用强监督,但在目标领域中不可以使用监督

2.2.领域自适应

计算机视觉中的领域适应主要集中在图像分类上,大量工作致力于在物体的库存照片和在世界上拍摄的相同物体之间的领域转移中进行泛化[30,17,8]。最近的工作包括[32,6,7],它们都学习了一种特征表示,这极大地混淆了两个领域。其他研究的目标是通过最小化特征在两个域的分布之间的距离来对齐特征[21,22]。Liu等人在生成式对抗网络[9]的基础上,提出了耦合生成式对抗网络来学习源数据集和目标数据集[18]图像的联合分布。
而对于其他重要的计算机视觉任务,如检测和分割,则关注较少。在检测方面,Hoffman等人提出了一个领域适应系统,通过明确地建模分类模型和检测模型之间的表示转移[11],以及后续的工作,包括使用多实例学习[12]的每个类别的适应。随后将检测模型转化为fns评估语义分割性能[13],但本工作没有提出任何特定的分割自适应方法。据我们所知,我们的方法是第一个引入领域自适应技术的语义分词模型。

3.全卷积适应模型

在本节中,我们描述了使用全卷积网络跨域语义分割的自适应算法,这些网络共享一个公共标签空间。在不失一般性的前提下,我们的方法可以应用于其他分割模型,但由于其广泛的影响,这里我们主要关注FCN。我们考虑使用图像IS和标签LS访问源域S。我们训练一个纯源的语义分割模型,该模型生成逐像素的类别分图φs(IS)。
我们的目标是学习一种语义分割模型,它适应于使用在无标记的目标领域,图像IT,但没有注释LT。我们将诸如网络的参数表示为φt(·)。如果源域和目标域之间没有域转移,那么可以简单地将源模型直接应用到目标,而不需要自适应方法。然而,源标记域和目标测试域的分布通常是不同的
因此,我们提出了一种无监督的适应方法。我们首先要指出,领域转移有两个主要的机会。首先,两个域之间可能会发生全局变化,导致对应特征空间的边缘分布发生偏移。这可能发生在任何两个不同的域之间,但在非常不同的域之间的大规模转移将是最明显的,例如在模拟域和真实域之间的适应。第二次主要转移是由于类别特定参数的变化。这可能是由于个别类别在这两个领域有特定的偏见。例如,当在两个不同的城市之间适应时,汽车的分布和标志的外观可能会改变。
我们提出了一个无监督的领域适应框架来适应语义分割模型,该框架直接解决了最小化全局偏移和特定类别偏移的需求。对于我们的模型,我们首先做出必要的假设,即源域和目标域共享相同的标签空间,并且源模型在目标域上获得的性能优于随机性能。然后,我们引入了两个新的语义分割损失目标,一个是最小化全局分布距离,该目标同时作用于源图像和目标图像,Lda(IS, IT);另一种是利用目标图

FCNs in the Wild是一种用于像素级对抗和基于约束的适应的方法,用于实现不同数据集语义分割。该方法的动机是当训练数据和测试数据不同域时,以前的方法效果较差。它提出了无监督对抗方式来解决像素预测问题,并结合全局和类别特定的适应技术。该方法假设源域和目标域共享相同的标签空间,并且源模型在目标域上的性能优于随机猜测。创新之处在于提出了无监督域适应方法,可以迁移FCN结果的图像域,并结合全局和局部对齐方法来提高性能。\[1\] #### 引用[.reference_title] - *1* [2016-CVPR-FCN in the Wild 论文学习笔记](https://blog.youkuaiyun.com/weixin_43795588/article/details/126771737)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [FCNs in the Wild: Pixel-level Adversarial and Constraint-based Adaptation](https://blog.youkuaiyun.com/odssodssey/article/details/123266187)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [16-FCNs in the Wild- Pixel-level Adversarial and Constraint-based Adaptation](https://blog.youkuaiyun.com/u010067397/article/details/84990515)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值