基于全卷积网络和能量最小化的文本行提取方法
在计算机视觉领域,文本行的检测与提取是处理手写文档图像的重要任务。准确提取文本行对于后续的文字识别、文档分析等应用至关重要。本文将介绍一种结合全卷积网络(FCN)和能量最小化(EM)的文本行提取方法,以及相关数据集和实验评估。
1. 背景与挑战
文本行的检测和提取有着不同的任务定义。检测是指确定文本行的位置,而提取则是明确文本行的具体像素。近年来,虽然在文本行检测方面取得了一定进展,但文本行提取仍然面临诸多挑战。
这些挑战主要源于文本行高度和方向的变化、存在重叠和相邻的文本行,以及行间距较近时的变音符号等因素。尽管深度学习方法在检测不同方向的文本行方面表现出色,但在提取方面,尤其是处理非水平文本行时,相关研究还比较有限。
2. 相关工作
文本行的表示主要有检测和提取两种方法:
- 文本行检测 :通过检测线条、折线或斑点来表示文本行元素的位置。如基线连接字符主体的下部,分隔路径则跟随相邻文本行之间的空间,而文本行斑点则覆盖文本行中的字符主体。
- 文本行提取 :确定构成文本行的像素或围绕文本行元素的多边形。像素标记为文本行的所有像素分配相同的标签,而边界多边形则将文本行的所有元素及其相邻背景像素包围起来。
许多深度学习方法在文本行检测方面有应用,但部分方法仅进行检测,或者其提取阶段不适用于非结构化的文本行,因为它们通常假设文本行是水平且高度恒定的。
3. 数据集
为了评估所提出的方法,使用了三个公开的手写数据集:
| 数据集名称
全卷积网络与能量最小化的文本行提取法
超级会员免费看
订阅专栏 解锁全文
2375

被折叠的 条评论
为什么被折叠?



