PubTabNet——论文阅读笔记

原创于 2021-12-05 11:01:52 发布 · 4k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#PubTabNet #表格识别 #table structure

表格识别专栏专栏收录该内容

9 篇文章

订阅专栏

一. 前景介绍

论文：https://arxiv.org/pdf/1911.10683.pdf ((Image-based table recognition: data, model, and evaluation))
代码：https://github.com/ibm-aur-nlp/PubTabNet (包含数据下载地址)
该论文是2020年IBM的表格识别论文，该论文对之后的表格识别工作有很大的影响。

二. 论文贡献

1. 开源数据集

开源了表格识别的数据集，50多万张表格和对应的标注信息，数据集介绍，请参考https://www.jianshu.com/p/4801279422ac。

2. 提出表格识别新思路

将表格结构序列化，实现端到端的表格识别。
表格结构序列化：
在这里插入图片描述
算法框架：

3. 提出更加合理的表格识别评价指标

本文提出基于编辑距离的表格相似度评价指标，数学表达式如下：
在这里插入图片描述
评论：虽然后来百度和平安开源的表格识别方案在测试指标上都超越了该算法，但他们的方法都借鉴了该论文的方法，评价指标也是用的本论文的评价指标。同时，PubTabNet也是目前为止开源数量最多的表格识别数据集。

每天进步一点，欢迎技术交流！！！
在这里插入图片描述

评论 1

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

guopeiAI 请博主加个火腿

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。