OCRNet论文阅读笔记

最新推荐文章于 2025-10-22 16:31:53 发布

原创

最新推荐文章于 2025-10-22 16:31:53 发布 · 5.4k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #计算机视觉 #算法

本文介绍了新提出的图像语义分割网络OCRNet。它属于基于关系上下文的类型，通过当前像素与上下文像素的关系整合信息。OCRNet改进了区域划分策略，按物体划分区域使上下文有明确语义。实验表明，它在多个数据集上性能和复杂度均优于现有方案，成为新的SOTA模型。

OCRNet原文链接：https://arxiv.org/pdf/1909.11065.pdf

OCRNet是今年新提出的Image Semantic Segmentation网络。整篇论文读下来，最大的感受就是文章内容非常充实，可以看出作者团队在很多个benchmark和baseline都做了大量对比实验，而且论文的思路清晰，创新点比较合理，值得认真品读和借鉴。

对于语义分割这种精细的像素级图像分类任务而言，每个像素的上下文信息都是极其重要的。现有的大量基于Context的文章，大致可以分为multi-scale context和relational context两种，DeepLab系列均属于前一种类型，旨在提取每个像素不同范围内的上下文信息来改善模型的性能；而OCRNet属于后一种类型，旨在通过当前pixel position与contextual pixel的相关关系来整合上下文信息，得到增强的pixel representation。

文章里提到，DANet、CFNet和OCNet这些Relational Context Model都是基于self-attention scheme, 通过pixel representation之间的相关性去整合信息；一些更好的模型，例如Double Attention、ACFNet，借鉴了superpixel方法的分区域分类思想，把图片像素分成若干个区域，采用region representation的形式去代表区域的信息，并利用pixel-region relation去进行context aggregation。