15、基于全卷积网络和能量最小化的文本行提取方法

全卷积网络与能量最小化的文本行提取法

QuietPulse

于 2025-05-27 13:41:38 发布

阅读量24

点赞数

CC 4.0 BY-SA版权

分类专栏：解析模式识别与深度学习的前沿进展文章标签：全卷积网络能量最小化文本行提取

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c2d3e4f/article/details/149544168

解析模式识别与深度学习的前沿进展专栏收录该内容

71 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于全卷积网络和能量最小化的文本行提取方法

在计算机视觉领域，文本行的检测与提取是处理手写文档图像的重要任务。准确提取文本行对于后续的文字识别、文档分析等应用至关重要。本文将介绍一种结合全卷积网络（FCN）和能量最小化（EM）的文本行提取方法，以及相关数据集和实验评估。

1. 背景与挑战

文本行的检测和提取有着不同的任务定义。检测是指确定文本行的位置，而提取则是明确文本行的具体像素。近年来，虽然在文本行检测方面取得了一定进展，但文本行提取仍然面临诸多挑战。

这些挑战主要源于文本行高度和方向的变化、存在重叠和相邻的文本行，以及行间距较近时的变音符号等因素。尽管深度学习方法在检测不同方向的文本行方面表现出色，但在提取方面，尤其是处理非水平文本行时，相关研究还比较有限。

2. 相关工作

文本行的表示主要有检测和提取两种方法：
- 文本行检测 ：通过检测线条、折线或斑点来表示文本行元素的位置。如基线连接字符主体的下部，分隔路径则跟随相邻文本行之间的空间，而文本行斑点则覆盖文本行中的字符主体。
- 文本行提取 ：确定构成文本行的像素或围绕文本行元素的多边形。像素标记为文本行的所有像素分配相同的标签，而边界多边形则将文本行的所有元素及其相邻背景像素包围起来。

许多深度学习方法在文本行检测方面有应用，但部分方法仅进行检测，或者其提取阶段不适用于非结构化的文本行，因为它们通常假设文本行是水平且高度恒定的。

3. 数据集

为了评估所提出的方法，使用了三个公开的手写数据集：
| 数据集名称

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。