论文地址
https://arxiv.org/abs/1806.02559
本博客只讲最浅层的网络结构理解,不涉及公式。
引言
图一
PSENet说,传统的基于四边形边界框的如(b),定位不准,还有的检测算法会把距离太近的字视为一个字,如(c),PSENet要解决这俩事,如(d)所示。
特征提取
本研究分两步,一步是提取特征,另一步是检测头。
左边特征提取,使用里一个跳跃连接的操作。
图二
下面两张图就是FCN的下采样与上采样相加的一个效果图,这部分很好理解,可以参考这篇博客
【详解】计算机视觉之目标分割_unet网络结构如何实现小目标分割的-优快云博客
图三
图四
结论就是,这种拼接结构可以实现目标分割的效果。理解这个就理解本文的特征提取了。
渐进式尺度扩展
现在为第二部分
图五
最开始最小核算法生成第一个分割结构,图五(a),这个是为了保证不会把多个相近的目标看出一个目标。
随后就一步一步扩张分割区域,里面涉及多步,论文里为了方便展示写了三步,实际代码是7步。直到接近ground truth停止。
PSENet的大致过程就是这样,详细的公式还是需要看论文。