CVPR 2025|OmniDocBench:PDF解析能力维度的指南针,让文档解析评测更全面、更精细

导言:

PDF等文档的内容提取与解析是计算机视觉领域的一个基础任务,它支撑着大模型和检索增强生成(RAG)技术对高质量数据的需求。相关的技术和工具正在蓬勃发展,引起了较多的关注,但是现有的文档解析方法在多样性和评测全面性上还存在较多局限性。

为此我们提出一个自动化文档内容提取的多元类型基准OmniDocBench,覆盖了9种文档类型,涵盖19种文档布局和15个属性标签,可以更全面地评估文档内容提取的准确性。

本研究成果《OmniDocBench:Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations》已被计算机视觉顶级会议CVPR 2025接收,作者团队来自上海人工智能实验室,Abaka AI,2077AI,欢迎关注。

图片

论文链接:https://arxiv.org/pdf/2412.07626

代码:https://github.com/opendatalab/OmniDocBench

下载链接:https://opendatalab.com/OpenDataLab/OmniDocBench


🔎PDF解析指的是将PDF的内容解析成机器可读的格式,比如Markdown、HTML等。PDF解析从2024年上半年开始引起众多关注,一方面是模型训练端需要提取PDF高质量图文数据训练,另一方面是检索增强生成(RAG)成为大模型时代的热门应用,需要提取大量PDF信息建立数据库。

🔧目前PDF解析工具如雨后春笋一般蓬勃发展,前期主要发展的是Pipeline工具(MinerU、Marker等)、专用模型(Nougat、GOT-OCR等),后期通用视觉语言大模型(GPT4o、Gemini)和AI Agent(LandingAI)也开始在PDF解析上持续发力。

📚然而,目前已有的评测PDF解析工具能力的benchmark大部分集中在一些单模块的评测上(公式识别、表格识别、OCR),端到端的文档解析评测集较少(比如Fox,Nougat等),且覆盖的文档类型较少,页面数量也较少。

一、现有的PDF解析能力Benchmark

现有的PDF解析能力评测基准,主要分为单模块和端到端两类:

  • 单模块的评测包括PubLayNet、TableBank、M6Doc等,这类Benchmark主要是评估单模块的识别能力,例如公式、表格、OCR、版面分析、阅读顺序等功能的检测和识别能力。

  • 还有一种是端到端的评测,端到端评测主要是评估页面或者文件级别整体的识别能力,例如Fox、Nogout、GOT-OCR等。

目前已开源的端到端评测集较少,且存在一定的局限性:

  • 较少的文档类型:目前大部分评测集包含的文档类型主要是学术文献,缺乏较为多样化的文档类型。

  • 评测方法上的局限性:大部分评测还是采用MD2MD直接全文计算Edit Distance指标的方法,这种文本的指标计算,没有办法公平的评估公式及表格,还有阅读顺序的精度,并且这几个因素也会使得文本的精度评估受到影响。

  • 缺乏更加细粒度的评测结果:大部分评测结果只是给一个总分,一个模型到底在哪个方面做得不好,哪个方面做得好,这个问题没有得到解答。

图片

二、OmniDocBench的优势

图片

OmniDocBench涵盖9种文档类型,具有丰富的密集标注,并开发了配套的评测方法,使其既具备单模块的评测能力(包括布局检测,公式识别,表格识别,文本识别),又具备端到端的评测能力,能够从文本、表格、公式、阅读顺序这几大维度分别评估,具体来说体现在以下几个方面:

数据多样性:OmniDocBench从多个来源搜集了近20万个PDF,在这批数据中做了采样和聚类,筛选了6000张PDF页面,对这批数据做了页面级别的类别标签标注(包括PDF类型、布局、语种、页面特殊情况等),然后在这个标注基础上做了一个均衡采样,并且人工检查去除了敏感数据,最终筛选出了981张多样化的PDF页面,覆盖了9类文档来源的高质量标注数据,包括学术论文、教材等基础类型,以及手写笔记、密排报纸等高挑战性样本。

图片

标注的多样性:OmniDocBench制定了严格的标注规则和流程,由高质量标注团队及专家质检员进行标注和质检,验证集涵盖了19种布局类别(包括了Block级别和Span级别的标注),以及15项属性标签(页面标签6项,文本属性3项,表格属性6项),还有block间的关系标签(比如表格和表格标题的归属关系、分栏截断的段落之间的连接关系),因此能够提供各个类别下的细粒度评测结果。

图片

评测方法合理性:OmniDocBench开发了一套基于文档组件拆分和匹配的评测方法,优化了匹配合并的算法,这一套评测方法能够针对不同的元素(比如公式、表格)使用更加合适的评测指标(CDM、TEDS),提供了分页面以及分属性的精细化评测结果,精准定位模型文档解析的痛点问题。

三、PDF解析工具与OmniDocBench

OmniDocBench为文档内容提取提供了一套更加全面、精细的评估基准,旨在在提升各类智能文档处理工具在文档内容提取与解析等任务下的能力。我们使用OmniDocBench对目前主流的PDF解析工具展开评测,结果如下:

图片

更多关于OmniDocBench评测集的使用方法和结果,欢迎访问以下地址:

仓库地址:https://github.com/opendatalab/OmniDocBench

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值