一. 前景介绍
论文:https://arxiv.org/pdf/1911.10683.pdf ((Image-based table recognition: data, model, and evaluation))
代码:https://github.com/ibm-aur-nlp/PubTabNet (包含数据下载地址)
该论文是2020年IBM的表格识别论文,该论文对之后的表格识别工作有很大的影响。
二. 论文贡献
1. 开源数据集
开源了表格识别的数据集,50多万张表格和对应的标注信息, 数据集介绍,请参考https://www.jianshu.com/p/4801279422ac。
2. 提出表格识别新思路
将表格结构序列化,实现端到端的表格识别。
表格结构序列化:
算法框架:
3. 提出更加合理的表格识别评价指标
本文提出基于编辑距离的表格相似度评价指标,数学表达式如下:
评论:虽然后来百度和平安开源的表格识别方案在测试指标上都超越了该算法,但他们的方法都借鉴了该论文的方法,评价指标也是用的本论文的评价指标。同时,PubTabNet也是目前为止开源数量最多的表格识别数据集。
每天进步一点,欢迎技术交流!!!