探索数据宝藏:TableBank - 智能表格识别新里程碑
在数字化时代,表格是信息传递的重要载体,但自动化处理这些表格的挑战依然存在。为此,我们引入了TableBank——一个基于图像的表格检测和识别开源数据集,由独特的弱监督方法从互联网上的Word和Latex文档构建而成,包含了417,234个高质量标注的表格。
研究新闻
- 许可证更新为Apache-2.0.
- 发布了官方训练/验证/测试数据集,并使用Detectron2和OpenNMT工具重新训练了表格检测和结构识别模型。基准结果、模型动物园以及TableBank下载链接已更新。
- 一个新的基准数据集DocBank现已可用,用于文档布局分析。
- 我们的数据仅限于研究用途。
- 我们的论文已被LREC 2020接受。
项目简介
TableBank是一种新型弱监督方法的产物,可以自动创建大规模且高质量的表格识别数据集,比现有的人工标注数据集大几个数量级。该方法巧妙地利用Word文档的Office XML代码和Latex文档的源代码来添加表格边界框,涵盖了各种领域如商业文档、官方文件和研究报告等。
数据集统计
TableBank分为Word和Latex两个来源,其中包含417,234张高清晰度表格图像,划分为训练、验证和测试集合。
任务定义
- 表格检测:定位文档中的表格位置,通过边框框定。
- 表格结构识别:识别表格的行和列布局,特别适用于非数字文档格式,如扫描图像,以HTML标签序列表示表格结构。
基线模型与性能
TableBank提供了基于Faster R-CNN和ResNeXt架构的表格检测模型,以及基于encoder-decoder框架的表格结构识别模型。所有基线均经过严格的评估,展示了在Word、Latex和混合数据集上的一流性能。
应用场景
TableBank适用于各种实际场景,包括:
- 自动化办公文档处理:快速提取关键数据,提高工作效率。
- 学术研究:从大量科研文献中自动整理和汇总实验结果。
- 数据分析:自动抓取并整合不同来源的数据表,进行大数据分析。
项目特点
- 大规模与高质量:覆盖广泛领域的417,234个标注表格,保证了模型训练的充分性和准确性。
- 创新弱监督:利用Word和Latex文档的内在标记创建标注数据,降低成本。
- 易于使用:提供官方训练和测试数据集,易于集成到现有工作流程中。
- 强大的基线:支持Detectron2和OpenNMT工具,方便研究人员快速启动项目。
要了解更多关于TableBank的信息,访问其GitHub页面,开始您的智能表格识别之旅吧!记得在引用时注明[Li等人,2019]的工作哦。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



