OCRNet原文链接:https://arxiv.org/pdf/1909.11065.pdf
OCRNet是今年新提出的Image Semantic Segmentation网络。整篇论文读下来,最大的感受就是文章内容非常充实,可以看出作者团队在很多个benchmark和baseline都做了大量对比实验,而且论文的思路清晰,创新点比较合理,值得认真品读和借鉴。
对于语义分割这种精细的像素级图像分类任务而言,每个像素的上下文信息都是极其重要的。现有的大量基于Context的文章,大致可以分为multi-scale context和relational context两种,DeepLab系列均属于前一种类型,旨在提取每个像素不同范围内的上下文信息来改善模型的性能;而OCRNet属于后一种类型,旨在通过当前pixel position与contextual pixel的相关关系来整合上下文信息,得到增强的pixel representation。
文章里提到,DANet、CFNet和OCNet这些Relational Context Model都是基于self-attention scheme, 通过pixel representation之间的相关性去整合信息;一些更好的模型,例如Double Attention、ACFNet,借鉴了superpixel方法的分区域分类思想,把图片像素分成若干个区域,采用region representation的形式去代表区域的信息,并利用pixel-region relation去进行context aggregation。

本文介绍了新提出的图像语义分割网络OCRNet。它属于基于关系上下文的类型,通过当前像素与上下文像素的关系整合信息。OCRNet改进了区域划分策略,按物体划分区域使上下文有明确语义。实验表明,它在多个数据集上性能和复杂度均优于现有方案,成为新的SOTA模型。
最低0.47元/天 解锁文章
730

被折叠的 条评论
为什么被折叠?



