级联卷积神经网络实现场景文本的精确检测
在自然场景中,文本检测和定位是一个热门且具有挑战性的研究领域,广泛应用于产品包装、车牌号码识别和地名识别等场景。由于自然场景的多样性、文本内容和字体的变化以及不可控的环境干扰,尤其是小文本的检测,仍然是一个巨大的挑战。
1. 研究背景与目标
为了准确可靠地确定自然场景中文本的边界区域,提出了一种基于级联卷积神经网络(CNN)的文本检测算法。该系统通过聚合级联CNN网络,以获得精确的文本检测精度(Precision)、召回率(Recall)和F值(F-score)。
2. 相关工作
传统的文本检测方法基于手工设计的特征来区分文本和非文本,通常包含多个子步骤。随着卷积神经网络(CNN)的发展,CNN和滑动窗口模式逐渐取代了手工工作。目前,主流的文本检测方法可分为词级检测和字符级检测两种类型。
3. 方法介绍
该方法包括三个关键部分,以确保文本定位的可靠性和准确性:
- 第一个网络对类文本块进行粗略定位。
- 对第一个网络输出的类文本块进行中间处理。
- 对文本检测进行细化。
3.1 第一个网络对类文本块的粗略定位
第一个网络的目标是从输入图像中获取包含潜在文本的文本块的大致位置。采用整体嵌套边缘检测(HED)架构来训练第一个网络模型。在训练阶段,重新设计了标签图,将原始图像中文本区域的所有像素设置为正样本像素。在测试阶段,通过训练好的模型获得文本得分图,然后通过中间处理机制将其转换为文本二值图。
3.2 中间处理机制
- 多尺度文本得