一、报告概述
本次报告聚焦三款主流具备OCR能力的模型,其中Gemini 2.5-Pro是谷歌推出的通用多模态大模型,MinerU2.5是上海人工智能实验室开源的专业文档解析模型,DeepSeek-OCR则是专注于高效文档识别的开源模型。本次对比围绕OCR核心的识别精度、处理效率、复杂场景适配性等关键指标,结合权威评测数据与实测场景,综合评估三者的OCR表现,为不同场景下的工具选型提供参考。
二、核心维度对比
(一)识别精度
识别精度是OCR的核心指标,涵盖文本、表格、公式等内容的识别准确率及结构化还原度,具体数据如下:
| 模型 | 综合精度表现 | 细分场景精度 |
|---|---|---|
| Gemini 2.5-Pro | 零样本泛化能力强,基础文本识别精度较高,但在专业文档解析的权威基准测试OmniDocBench中表现落后于MinerU2.5。复杂文档处理时易出现幻觉,可靠性受限。 | 印刷体文本识别表现稳定;复杂公式、嵌套表格识别易出错,结构化还原度一般,难以精准保留复杂表格的合并单元格、跨页关联等结构。 |
| MinerU2.5 | 在OmniDocBench、olmOCR-bench等5大公开基准上取得90.67的综合分,超越Gemini 2.5-Pro、Qwen2.5-VL-72B等模型。解析精度逐步逼近人工标注效果。 | 学术论文公式识别率达98.5%,财务报表跨页表格缝合准确率99.2%;对无线表、旋转表格等特殊表格的识别完整度从传统方案的72%提升至99%;中文公式及复杂数学公式的提取渲染经优化后准确性极高。 |
| DeepSeek-OCR | Fox基准测试中,文本token数为视觉token10倍以内时,解码精度达97%;在OmniDocBench测试中,以100个视觉token就能达到GOT-OCR2.0(256token)的同等性能。 | 印刷体文本识别精度稳定;表格还原率达95.7%,LaTeX公式还原率达92.1%;但手写体识别误差较大,还存在联想不存在文字的问题,手绘思维导图识别表现较差。 |
(二)处理效率
处理效率体现在单页处理速度、长文档处理能力及资源占用,直接影响大规模文档处理场景的实用性:
- MinerU2.5:效率优势显著。其采用“先全局后局部”的两阶段解析策略,将推理算力消耗降到端到端方案的1/10。在单卡RTX4090上的处理速度可达2.12页/秒,比现有同类方案快4-7倍。且参数量仅1.2B,即使处理8K文档也能兼顾效率与精度,无显存溢出问题。
- DeepSeek-OCR:效率表现优异。依托“光学上下文压缩”技术,10倍压缩率下仍保持97%精度。单块NVIDIA A100 GPU日处理能力超20万页文档,处理286页企业年报仅需4分钟。其参数量约380M的视觉编码器搭配3B参数解码器,推理时仅激活约5.7亿参数,资源消耗较低。
- Gemini 2.5-Pro:无公开的专业文档批量处理速度数据。作为通用大模型,其未针对文档解析做专门的效率优化,处理长文档时易因token数量过大导致处理速度变慢,且在密集文本解析场景中,算力消耗显著高于专业文档模型。
(三)复杂场景适配性
复杂场景涵盖模糊文档、旋转文本、多语言混合、极端排版等,是考验OCR能力的关键场景:
- Gemini 2.5-Pro:擅长处理多样化的非文档类复杂图像OCR,如金属雕刻文本、扭曲变形字体、模糊旧报纸扫描件等,能对被遮挡文字进行自动推理。但对多栏排版、插图干扰的学术论文、财务报表等专业文档的适配性差,难以应对跨页表格、参考文献等专业格式识别。
- MinerU2.5:适配专业场景的复杂需求。支持270度旋转表格识别、泰语/希腊语等84种语言的OCR;能有效应对多栏排版、插图干扰、模糊扭曲及低分辨率扫描件等极端条件;新增的参考文献识别能力及嵌套表格优化,使其在科研、金融场景的复杂排版文档处理中表现稳定。
- DeepSeek-OCR:场景适配灵活度高。提供Tiny/Small等四种子模式,专属Gundam模式支持瓦片化处理工程图纸等大尺寸文档。支持100+种语言识别,正常图表识别基本无问题,但对手绘图形、潦草手写体等场景适配性差,图表识别偶有比例颠倒等错误,小像素图片识别表现不理想。
(四)输出与部署
该维度关系到OCR结果的后续应用及落地成本,具体差异如下:
| 模型 | 输出格式 | 部署难度 |
|---|---|---|
| Gemini 2.5-Pro | 支持基础文本输出,结构化输出能力弱,难以直接输出Markdown、JSON等格式,需二次处理。 | 依赖谷歌API调用,本地化部署受限,企业级应用成本较高,普通开发者难以自定义优化。 |
| MinerU2.5 | 支持Markdown、JSON等多种结构化格式输出,适配RAG知识库构建等场景。 | 开源免费,模型体积小巧,在消费级显卡如RTX3090、4090上即可实现高速解析,部署便捷,支持二次开发与集成。 |
| DeepSeek-OCR | 可输出可读文本,适配工程图纸等场景的定制化输出需求。 | 开源且部署灵活,边缘设备部署时启动速度快,显存占用低,适配云端大规模处理与户外移动扫码等多类部署场景。 |
三、优缺点总结与场景推荐
(一)各模型优缺点
- Gemini 2.5-Pro
- 优点:零样本泛化能力强,能处理金属雕刻、扭曲字体等非传统文档的特殊OCR场景;基础文本识别无需复杂配置,上手门槛低。
- 缺点:专业文档解析易幻觉,表格、公式的结构化还原差;本地化部署困难,批量处理成本高。
- MinerU2.5
- 优点:专业文档解析精度、效率双领先;适配科研、金融领域的复杂表格、公式、跨页文档等场景;开源易部署,支持多种结构化输出。
- 缺点:对手写体识别精度仅82.68%,在非专业文档的泛化场景中表现不如Gemini 2.5-Pro。
- DeepSeek-OCR
- 优点:处理效率高,资源消耗低,长文档批量处理能力突出;支持大尺寸工程图纸处理,多语言识别覆盖广。
- 缺点:手写体、手绘图识别能力弱;复杂公式识别精度略低于MinerU2.5,部分场景存在图表识别错误。
(二)场景适配推荐
- 优先选MinerU2.5:科研机构处理学术论文、金融行业解析财务报表等专业场景;需要高精度提取表格、公式,且追求本地化部署与低成本批量处理的场景。
- 优先选DeepSeek-OCR:企业批量处理常规文档、EPC项目处理工程图纸;对处理速度要求高,且以印刷体文本、常规图表为主要识别对象的场景。
- 优先选Gemini 2.5-Pro:个人用户处理多样化的零散图像OCR需求,如识别扭曲商品包装文字、模糊老照片文字等;无需结构化输出,对识别结果二次处理容忍度高的场景。
四、总结
从OCR核心能力来看,MinerU2.5在专业文档解析领域实现了精度与效率的全面领跑,是科研、金融等专业场景的最优选择;DeepSeek-OCR凭借高效压缩技术,在长文档批量处理场景中优势显著;Gemini 2.5-Pro则更适合非专业、多样化的零散OCR需求。用户可根据自身场景的核心诉求,如精度优先级、处理规模、部署方式等,选择适配的模型。

1万+

被折叠的 条评论
为什么被折叠?



