以前用刚性词级边界框训练的方法在以任意形状表示文本区域方面存在局限性。论文提出了一种新的场景文本检测方法,通过探索每个字符和字符之间的亲和力来有效地检测文本区域。为了克服缺乏单个字符级别注释的问题,论文提出的框架既利用了合成图像的给定字符级别注释,也利用了通过学习的临时模型获得的真实图像的估计字符级别地面实况。为了估计字符之间的亲和力,网络使用新提出的亲和力表示进行训练。对六个基准的广泛实验,包括在自然图像中包含高度弯曲文本的 TotalText 和 CTW-1500 数据集,表明我们的字符级文本检测显着优于最先进的检测器。根据结果,我们提出的方法保证了检测复杂场景文本图像的高度灵活性,例如任意方向、弯曲或变形的文本。
https://arxiv.org/pdf/1904.01941.pdfhttps://arxiv.org/pdf/1904.01941.pdf