OLMOCR：基于多模态的端到端文档解析方案

原创于 2025-07-13 20:27:13 发布 · 749 阅读

·

24

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #AIGC #算法

AI多模态专栏收录该内容

37 篇文章

订阅专栏

推荐阅读

AIGCmagic社区介绍：

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级！

AI多模态核心架构五部曲：

AI多模态模型架构之模态编码器：图像编码、音频编码、视频编码

AI多模态模型架构之输入投影器：LP、MLP和Cross-Attention

AI多模态模型架构之LLM主干(1)：ChatGLM系列

AI多模态模型架构之LLM主干(2)：Qwen系列

AI多模态模型架构之LLM主干(3)：LLAMA系列

AI多模态模型架构之模态生成器：Modality Generator

值得一试，就是部署比较耗费资源。如果最终结果不对，只能后处理，缺乏一定灵活性，同时还有不易察觉幻觉存在。

一、核心点

基于视觉语言模型（VLM）和文档锚定技术（document-anchoring），能够利用PDF文档的文本和元数据来提高内容提取的准确性。

通过微调一个7B参数的VLM模型（Qwen-VL2.5），并在大规模数据集上进行训练，实现了对PDF文档的高效处理。

二、PDF文档解析的难题

PDF文档的多样性和复杂性
- PDF文档因其多样化的类型（如学术论文、法律文件、宣传册等）和复杂的视觉布局（如多栏布局、浮动图表、页眉页脚等），给内容提取带来了巨大挑战。
PDF提取工具的局限性
- 现有的PDF提取工具主要分为基于Pipline系统（如Grobid、VILA等）和端到端模型（如Nougat、GOT Theory 2.0等）。
- 这些工具虽然在某些方面表现出色，但在处理复杂布局和大规模数据时存在效率低下或成本过高的问题。
大规模数据处理的成本和效率

A100 80GB，估算每小时成本为1.89美元；L40S，估算每小时成本为0.79美元；H100 80GB，估算每小时成本为2.69美元。

三、OLMOCR的解决方案

主要技术点体现在以下三个方向：

文档锚定技术：olmOCR通过pypdf库提取PDF文档中的文本块和图像的位置信息，并将其与图像一起输入到VLM模型中。这些位置信息作为“锚点”，帮助模型更好地理解页面的结构和内容。
VLM模型：olmOCR使用了一个7B参数的VLM模型，该模型在大规模数据集上进行了微调。通过文档锚定技术提供的额外信息，模型能够更准确地提取文本内容，并保持自然阅读顺序。
推理管道：olmOCR的推理管道基于SGLang和vLLM框架，能够高效地处理大规模数据。该管道将文档批量处理为工作项，并在多个GPU上并行处理，从而显著提高了处理效率。

四、OLMOCR 训练的过程

数据集构建
- 数据来源：olmOCR的数据集由260,000页PDF文档组成，这些文档从互联网上爬取，并涵盖了多种类型（如学术论文、宣传册、法律文件等）。此外，olmOCR还从互联网档案馆中获取了16,803页的扫描书籍，用于进一步训练模型。
- 数据标注：为了生成训练数据，olmOCR使用GPT-4o模型对PDF页面进行标注，生成结构化的JSON输出。这些标注数据用于微调VLM模型。

模型训练
- 微调过程：olmOCR的VLM模型基于Qwen2-VL-7B-Instruct模型进行微调。训练过程中，使用了AdamW优化器和余弦退火学习率调度器，训练了10,000步（约1.2个epoch）。训练数据的提示文本经过简化，以适应模型的输入格式。
- 验证过程：在训练过程中，olmOCR通过验证损失来跟踪模型的性能。验证结果显示，全微调模型的性能优于LoRA微调模型。

推理管道优化
- 批处理：olmOCR的推理管道将文档批量处理为工作项，并在多个GPU上并行处理。每个工作项包含约500页文档，这些文档同时排队进行推理处理。
- 成本优化：olmOCR通过优化硬件利用和推理效率，显著降低了处理成本。例如，在处理百万页PDF文档时，olmOCR的成本仅为190美元，而GPT-4o的成本为6,240美元。

五、与其他方案对比

同一份PDF使用不同方案解析，然后人工打分，计算胜率

PS：基于在线网页实测效果还行，就是速度很慢，一张页面识别时间10~15秒。

六、相关资源

源码地址：

https://github.com/allenai/olmocr

体验地址：

olmOCR – Open-Source OCR for Accurate Document Conversion

AIGCmagic社区介绍：

2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。