2025年OCR模型大PK:从1.7B到14B,谁是最强王者?一文搞定模型选型

部署运行你感兴趣的模型镜像

OCR模型选型:从专业OCR到多模态VLM的全面对比

前言

随着AI技术的快速发展,OCR(光学字符识别)技术已经从传统的文字识别演进为复杂的文档理解和多模态处理。本文对当前主流的OCR模型进行了全面评估,包括专业OCR模型和多模态视觉语言模型,为不同应用场景提供选型参考。

新增+1

在这里插入图片描述
2025.9.16发布的PaddleOCR-VL是一款专为文档解析量身定制的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,这是一个紧凑但功能强大的视觉语言模型 (VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,以实现精准的元素识别。该创新模型高效支持 109 种语言,并且在识别复杂元素(例如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均达到了 SOTA 性能。它的性能显著优于现有解决方案,与顶级 VLM 相比具有强大的竞争力,并具有快速的推理速度。这些优势使其非常适合在实际场景中实际部署。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
当之无愧的目前的SOTA,同时也说明了对比通用的LLM,垂直领域的模型还是很有必要的

模型概览

本次选型涵盖6个主流模型,分为两大类:

专业OCR模型

  1. dots.ocr - 基于1.7B参数的多语言文档解析模型
  2. OCRFlux-3B - 基于Qwen2.5-VL的文档转换模型
  3. MonkeyOCR-pro-3B - 轻量级文档解析模型
  4. MinerU - 高精度文档内容提取解决方案

多模态VLM模型

  1. InternVL3-14B - 多模态大语言模型
  2. Ovis2.5-9B - 原生分辨率视觉感知模型

模型详细分析

专业OCR模型

1. dots.ocr(小红书)
  • 发布时间: 2025年7月
  • 参数量: 1.7B
  • 开发机构: rednote-hilab

核心优势: dots.ocr以仅1.7B的极小参数量实现了SOTA性能,采用统一的版面检测和内容识别架构,简化了处理流程。该模型在OmniDocBench上达到SOTA表现,推理速度快于大型基础模型,特别适合低资源语言的多语言支持场景。

局限性: 该模型不支持跨页表格处理,在处理高密度图像时可能出现错误。特殊字符(如...___)会导致重复错误,且批量作业的吞吐量有限。

适用场景: 轻量级部署、多语言文档处理

2. OCRFlux-3B
  • 发布时间: 2024年11月
  • 参数量: 3B
  • 开发机构: ChatDOC

核心优势: OCRFlux-3B基于Qwen2.5-VL-3B-Instruct微调,在基准测试中EDS达到96.7%。作为首个支持跨页表格/段落合并的开源项目,该模型可在GTX 3090上运行,支持大规模文档处理(vLLM加速),原生支持中英双语。

适用场景: PDF文档批量处理、跨页表格处理

3. MonkeyOCR-pro-3B
  • 发布时间: 2025年6月
  • 参数量: 3B
  • 开发机构: Yuliang-Liu团队

核心优势: MonkeyOCR-pro-3B采用Structure-Recognition-Relation(SRR)三元组范式,相比MinerU平均提升5.1%,其中公式识别提升15.0%,表格处理提升8.6%。该模型多页文档处理速度达到0.84页/秒,在OmniDocBench上表现优于大型商业模型,支持中英文档解析。

局限性: 该模型不支持跨页表格处理,也不支持拍摄的文档。

适用场景: 结构化文档解析、高速处理需求

4. MinerU
  • 发布时间: 2024年9月
  • 参数量: 不详(基于PDF-Extract-Kit模型)
  • 开发机构: OpenDataLab

核心优势: MinerU提供高精度文档内容提取,支持多种文档类型,具备完整的预处理和后处理规则。该模型支持公式识别和版面检测,具有自动语言识别功能。

适用场景: 科学文献处理、多格式文档转换

多模态VLM模型

5. InternVL3-14B
  • 发布时间: 2024年12月
  • 参数量: 14B
  • 开发机构: OpenGVLab

核心优势: InternVL3-14B是先进的多模态大语言模型,采用Native Multimodal Pre-Training方法,支持工具使用、GUI代理、工业图像分析。该模型具备3D视觉感知能力,采用ViT-MLP-LLM架构,在MMMU基准测试中表现优异。

适用场景: 复杂多模态任务、高精度视觉理解

6. Ovis2.5-9B
  • 发布时间: 2025年8月
  • 参数量: 9B
  • 开发机构: AIDC-AI

核心优势: Ovis2.5-9B具备原生分辨率感知能力,实现无损图像处理,具有深度推理能力并支持思维模式。该模型在图表和文档OCR性能方面领先,在OpenCompass评测中达到78.3分(40B以下参数模型SOTA)。采用NaViT视觉编码器保持细节和全局结构,支持反思性推理。

适用场景: 资源受限环境、高精度OCR需求

性能对比分析

模型对比分析表

模型参数量发布时间核心特性性能亮点部署要求应用场景
MinerU未公开2024.09高精度提取多格式支持中等科研文献
InternVL3-14B14B2024.12多模态MLLMMMMU SOTA复杂视觉任务
Ovis2.5-9B9B2025.08原生分辨率OpenCompass 78.3中高高精度OCR
dots.ocr1.7B2025.07轻量统一OmniDocBench SOTA多语言处理
OCRFlux-3B3B2024.11跨页合并EDS 96.7%中等PDF批处理
MonkeyOCR-pro-3B3B2025.06SRR范式速度0.84页/秒中等结构化解析

OCR模型选型 - 详细评估指标合并表格

主要评估数据汇总表

基于各模型在相同benchmark上的详细评估指标数据:

OmniDocBench 详细指标对比表

在这里插入图片描述
在这里插入图片描述

MinerU作为文档解析工具性能其实也还不错,之前我一直在用的ragflow的deepdoc还有maker等这几个里面好像属minerU2性能最强。

ModelOverall Edit↓Text Edit↓Formula Edit↓Table TEDS↑Table Edit↓Read Order Edit↓
EN | ZHEN | ZHEN | ZHEN | ZHEN | ZHEN | ZH
MinerU20.139 | 0.2400.047 | 0.1090.297 | 0.5360.825 | 0.7900.141 | 0.1950.069 | 0.118
MonkeyOCR-pro-3B0.138 | 0.2060.067| 0.1070.246 | 0.4210.815 | 0.8750.139 | 0.1110.100 | 0.185
dots.ocr0.125 | 0.1600.032 | 0.0660.329 | 0.41688.6% | 89.0%0.099 | 0.0920.040 | 0.067
OCRFlux-3B0.195|0.2810.064|0.1830.379|0.6130.716|0.8130.253|0.1390.086|0.185
InternVL3-14B未在此benchmark未在此benchmark未在此benchmark未在此benchmark未在此benchmark未在此benchmark
Ovis2.5-9B未在此benchmark未在此benchmark未在此benchmark未在此benchmark未在此benchmark未在此benchmark

在这里插入图片描述

专门的ocr模型有OCRFlux、MonkeyOCR-pro-3B、dots.ocr,但是就OCRFlux-3B支持跨页表格处理 dots.ocr、MonkeyOCR-pro-3B都不支持的 还有dots.ocr有反馈>2000万像素图像需要降采样,否则会丢失细节;还有图片解析有盲区不支持流程图信息图解析(我实测过属实 流程图的文字ocr不出来就当成图片);特殊字符___`需要prompt优化一下 这都小问题 还有就是高吞吐量处理需要进行优化

​ dots.ocr支持图像和 PDF 输入。它能够处理包含文本的图片(如 JPEG、PNG 等格式)以及 PDF 文件中的文本提取任务。对于 PDF,通常会先将每一页转换为图片(如果是扫描版 PDF),然后进行 OCR 处理,提取其中的文本。OCRFlux好像仅支持图像输入,MonkeyOCR目前不支持拍摄文档

​ 刚好这三个模型在OmniDocBench中已经测评过 可以看出dots.ocr的性能应该是最强的,我也试了一下个人觉得dots.ocr在日常ocr应该是没啥问题而且性能够好 但是在面对某些情况还是要处理的 像跨页表格的话可以配上merge指令或者加个xboost或者其他的检测处理 然后吞吐量还是需要测一下

跨页表格处理

  • OCRFlux-3B 支持跨页表格/段落合并
  • 其他模型需要配合额外处理方案

​ 然后是多模态非专业VLM模型 我看了一下比较惊喜的就是Ovis2.5-9B和InternVL3-14B-Instruct
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

​ OCRBench v2 Leaderboard

在这里插入图片描述

​ InternVL3-14B-Instruct或者InternVL3-8B-Instruct还是令我比较惊喜的 这两个还是基于Qwen2.5-14B微调训练的本身2.5能力就不弱 但是从上面的数据可以看出在只有8B或者14B的参数量下性能还是比较接近Qwen2.5-72B 不管是多模态推理还是OCR方面 Qwen2.5-72B 我是用过的ocr的效果还是可以的 并且在参数量少了这么多的情况下幻觉也和那几个差不多 所以InternVL3-8B-Instruct性能这么接近72B我觉得性价比还是挺高的也可以考虑,能够不仅识别文本,还能理解、推理、对话和执行复杂的多模态任务

在这里插入图片描述

​ 但是如果在专业ocr方面,InternVL3-8B-Instruct多模态这几个模型和专门ocr模型还是有点差距的 这么看dots.ocr的性能确实很强

​ 下面是另外一个多模态模型Ovis2.5-9B

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Ovis2.5-9B 在 OpenCompass 多模态评估套件中达到了 78.3 的平均得分(在参数少于 40B 的开源 MLLM 中说是处于 SOTA 水平)。但是我目前没有找到InternVL3-14B-Instruct和Ovis2.5-9B的直接对比的详细数据。

综上

Ovis2.5-9B 在 OpenCompass 多模态评估套件中达到了 78.3 的平均得分(在参数少于 40B 的开源 MLLM 中说是处于 SOTA 水平)。但是我目前没有找到InternVL3-14B-Instruct和Ovis2.5-9B的直接对比的详细数据。

综上

专业ocr模型的话目前了解到性能最顶的就是dots.ocr 然后doubao-1-5-thinking-vision-pro-250428豆包的效果也不错但是目前闭源 多模态VLM的话性价比较高的是Ovis2.5-9B 当然针对垂领的效果可能有偏差毕竟每个模型擅长的部分不一样

您可能感兴趣的与本文相关的镜像

FLUX.1-dev

FLUX.1-dev

图片生成
FLUX

FLUX.1-dev 是一个由 Black Forest Labs 创立的开源 AI 图像生成模型版本,它以其高质量和类似照片的真实感而闻名,并且比其他模型更有效率

### 配置欧路词典以使用本地部署的 DeepSeek-R1:14B 模型 为了使欧路词典能够利用本地部署的 DeepSeek-R1:14B 模型进行编辑翻译工作,需要完成一系列特定配置。这不仅涉及软件内部参数调整,还涉及到网络通信层面的基础设定。 #### 设置前准备事项 确保已成功安装并运行了支持通过SiliconCloud API接口集成自定义模型的环境,并确认DeepSeek-R1:14B已在该环境中正确加载完毕[^1]。 #### 正确端口地址的选择 通常情况下,默认HTTP服务会监听80端口而HTTPS则为443;然而对于私有化部署的服务来说,开发者往往会指定其他未被占用的高编号端口来避免冲突。针对本案例中的DeepSeek系列模型而言,在官方文档或实际部署过程中应当指定了具体的对外提供服务所使用的TCP/IP端口号。假设此号码为`9200`(仅为示例),那么在后续操作里就需要依据这个数值来进行相应设置。 #### 在欧路词典内启用AI翻译模块并与本地服务器连接 进入欧路词典的应用选项菜单找到关于“AI翻译”的部分,这里可以发现有关于外部API接入的相关字段。按照提示输入之前确定好的IP地址以及相应的端口号(如http://localhost:9200)。注意如果是在不同机器之间建立联系,则应替换掉`localhost`成为目标主机的真实公网/局域网IP。 ```json { "api_url": "http://<your_server_ip>:9200" } ``` 保存更改之后重启应用程序让新的配置生效即可尝试发起一次简单的查询请求测试连通性和功能可用性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值