12、Multi-Type-TD-TSR:从文档图像中提取表格的多阶段解决方案

Multi-Type-TD-TSR:从文档图像中提取表格的多阶段解决方案

1. 引言

随着全球向数据驱动型产业转变,将扫描文档图像转换为机器可读信息的自动化算法需求迅速增长。虽然光学字符识别(OCR)技术基本解决了从图像中识别字符的问题,但表格提取任务却较少受到关注。表格识别包含两个子任务:表格检测(TD)和表格结构识别(TSR)。此前大多数工作仅关注其中一个任务,未提供端到端解决方案,也未充分考虑旋转图像或噪声伪影等实际应用条件。

表格用于将信息组织成行列结构,以紧凑地可视化信息单元之间的多维关系。为了将表格图像转换为机器可读字符,必须保留信息单元之间的原始关系和语义。然而,表格的外观和布局差异很大,这给开发转换算法带来了巨大挑战。表格的行列结构伴随着元素大小、布局、背景颜色、字体和边框的变化,这些因素都必须被考虑在内,以确保OCR在历史文档等领域的充分应用,否则表格中的信息将无法被自然语言处理(NLP)等下游任务有效利用。

1.1 表格类型

根据表格边框的使用情况,可将表格分为三种类型:
- 无边界表格:没有任何边框。
- 部分边界表格:包含部分边框。
- 有边界表格:具有完整的边框。

1.2 表格识别任务

将表格图像转换为机器可读信息的任务包括两个步骤:
- 表格检测(TD):识别图像中包含表格的所有区域。
- 表格结构识别(TSR):识别表格的组件,如行、列和单元格,以确定整个表格结构。

正确对齐表格图像是计算机视觉任务的关键步骤,因为如果表格图像未正确对齐,将无法生成准确的边界框,从而降低表格表示的整体性能。

1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值