推荐阅读
AIGCmagic社区介绍:
2025年《AIGCmagic社区知识星球》五大AIGC方向全新升级!
AI多模态核心架构五部曲:
AI多模态模型架构之模态编码器:图像编码、音频编码、视频编码
AI多模态模型架构之输入投影器:LP、MLP和Cross-Attention
AI多模态模型架构之模态生成器:Modality Generator
值得一试,就是部署比较耗费资源。如果最终结果不对,只能后处理,缺乏一定灵活性,同时还有不易察觉幻觉存在。
一、核心点
基于视觉语言模型(VLM)和文档锚定技术(document-anchoring),能够利用PDF文档的文本和元数据来提高内容提取的准确性。
通过微调一个7B参数的VLM模型(Qwen-VL2.5),并在大规模数据集上进行训练,实现了对PDF文档的高效处理。
二、PDF文档解析的难题
-
PDF文档的多样性和复杂性
-
PDF文档因其多样化的类型(如学术论文、法律文件、宣传册等)和复杂的视觉布局(如多栏布局、浮动图表、页眉页脚等),给内容提取带来了巨大挑战。
-
-
PDF提取工具的局限性
-
现有的PDF提取工具主要分为基于Pipline系统(如Grobid、VILA等)和端到端模型(如Nougat、GOT Theory 2.0等)。
-
这些工具虽然在某些方面表现出色,但在处理复杂布局和大规模数据时存在效率低下或成本过高的问题。
-
-
大规模数据处理的成本和效率
A100 80GB,估算每小时成本为1.89美元;L40S,估算每小时成本为0.79美元;H100 80GB,估算每小时成本为2.69美元。
三、OLMOCR的解决方案
主要技术点体现在以下三个方向:
-
文档锚定技术:olmOCR通过pypdf库提取PDF文档中的文本块和图像的位置信息,并将其与图像一起输入到VLM模型中。这些位置信息作为“锚点”,帮助模型更好地理解页面的结构和内容。
-
VLM模型:olmOCR使用了一个7B参数的VLM模型,该模型在大规模数据集上进行了微调。通过文档锚定技术提供的额外信息,模型能够更准确地提取文本内容,并保持自然阅读顺序。
-
推理管道:olmOCR的推理管道基于SGLang和vLLM框架,能够高效地处理大规模数据。该管道将文档批量处理为工作项,并在多个GPU上并行处理,从而显著提高了处理效率。
四、OLMOCR 训练的过程
-
数据集构建
-
数据来源:olmOCR的数据集由260,000页PDF文档组成,这些文档从互联网上爬取,并涵盖了多种类型(如学术论文、宣传册、法律文件等)。此外,olmOCR还从互联网档案馆中获取了16,803页的扫描书籍,用于进一步训练模型。
-
数据标注:为了生成训练数据,olmOCR使用GPT-4o模型对PDF页面进行标注,生成结构化的JSON输出。这些标注数据用于微调VLM模型。
-
-
模型训练
-
微调过程:olmOCR的VLM模型基于Qwen2-VL-7B-Instruct模型进行微调。训练过程中,使用了AdamW优化器和余弦退火学习率调度器,训练了10,000步(约1.2个epoch)。训练数据的提示文本经过简化,以适应模型的输入格式。
-
验证过程:在训练过程中,olmOCR通过验证损失来跟踪模型的性能。验证结果显示,全微调模型的性能优于LoRA微调模型。
-
-
推理管道优化
-
批处理:olmOCR的推理管道将文档批量处理为工作项,并在多个GPU上并行处理。每个工作项包含约500页文档,这些文档同时排队进行推理处理。
-
成本优化:olmOCR通过优化硬件利用和推理效率,显著降低了处理成本。例如,在处理百万页PDF文档时,olmOCR的成本仅为190美元,而GPT-4o的成本为6,240美元。
-
五、与其他方案对比
同一份PDF使用不同方案解析,然后人工打分,计算胜率
PS:基于在线网页实测效果还行,就是速度很慢,一张页面识别时间10~15秒。
六、相关资源
源码地址:
https://github.com/allenai/olmocr
体验地址:
olmOCR – Open-Source OCR for Accurate Document Conversion