论文:Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes
论文链接:https://arxiv.org/abs/1807.02242
这篇是白翔老师发表在ECCV2018关于OCR的文章,通过引入分割的思想进行end-to-end训练文本 检测和识别从而达到检测和识别任意形状文本的目的。
文章的主要特点在于能够检测任意形状的文本,之所以能达到这样的效果主要是因为采用分割方式检测文本。我们知道目前OCR领域对水平文本的检测和识别效果都非常好,同时对任意方向的文本检测和识别也有很多优秀的算法,但是对任意形状的文本检测和识别的研究却非常少,主要一个原因在于常规的文本检测算法采用目标检测算法,这种类型算法不利于任意形状文本的检测,而分割算法恰恰能实现,这篇文章正是借鉴Mask RCNN的思想进行文本检测和识别。
另外目前OCR领域的大部分算法中文本检测和文本识别都是分开的,也就是文本检测通过一个模型实现,得到的检测结果再作为文本识别模型的输入得到最终的识别结果。分开训练的方式比较主流,而end-to-end的训练方式有一定难度,但是文本检测和文本识别相互之间联系紧密而且可以互补,因此从直观上看分开训练模型不一定是最好的,这也是目前该领域依然研究end-to-end的训练方式的一个原因。这篇文章是end-to-end的训练方式,也就是文本检测和文本识别在同一个模型中同时实现,通过分割进行文本检测能得到可靠的检测结果,从而保证文本识别的训练能够顺利进行。
如果你不熟悉水平方向、任意方向和任意形状的文本检测和识别,那么可以看Figure1。在Figure1中,绿色框是文本检测的结果,左图的检测框和常规的目标检测算法结果类似,主要通过预测框的中心点和宽高来定位框;中间图的检测框则是通过预测框的四个点来定位框,这样就能实现任意四边形的框预测;右