OCR新王Mistral：1000页仅1美元，GPT-4o、Google被超越？

如何让 AI 读懂你的 PDF 文档？OCR 是一个绕不开的话题。

OCR，中文名：光学字符识别，全称：Optical Character Recognition，是一种将图片或扫描文档中的文字转换为可编辑、可搜索的文本的技术。OCR 的核心原理是通过计算机视觉识别字符形状，再利用机器学习和深度学习模型进行智能匹配，从而精准还原原始文本内容。例如，当你扫描一张纸质文档，OCR 可以识别并提取其中的文字，使其可以被编辑、复制或用于搜索。

虽然 OCR 技术已广泛应用，但传统 OCR 解决方案往往局限于简单的印刷文本识别，当面对复杂文档（表格、公式、图像）、多语言内容（不同字体、手写体、特殊字符）、非标准排版时，往往难以满足高精度需求。

近日，号称“欧洲的 OpenAI”的 Mistral AI 发布了一款全新的 OCR API —— Mistral OCR。

Mistral OCR 支持 PDF 和图片输入，主打精准解析文档里的全部元素，包括文本、表格、数学公式、图片，多语言支持自然是标配，并且可以还原复杂排版，并输出结构化数据（比如 JSON、Markdown）。

更更重要的是，Mistral OCR 极具性价比，每 1000 页定价为 1 美元，批量推理模式下单位成本更低（约为单页推理的一半）。

综合来看，Mistral OCR 非常适合多模态检索和 AI 问答系统，比如以 RAG（检索增强生成）为核心的 AI 知识库。

从官方给出的案例来看，Mistral OCR 对复杂文档元素的解析能力是 TOP 级别的，比如图片、LaTeX 数学公式、表格。

1. 图片

扫描版：

Mistral OCR 识别后：

2. LaTeX 数学公式

扫描版：

Mistral OCR 识别后：

说一句完美不过分吧。

3. 文档

扫描版：

Mistral OCR 识别后：

在基准测试中，Mistral OCR 的表现更是“遥遥领先”。

Model	综合评分	数学公式	多语言	扫描文档	表格解析
Google Document AI	83.42	80.29	86.42	92.77	78.16
Azure OCR	89.52	85.72	87.52	94.65	89.52
Gemini-1.5-Flash-002	90.23	89.11	86.76	94.87	90.48
Gemini-1.5-Pro-002	89.92	88.48	86.33	96.15	89.71
Gemini-2.0-Flash-001	88.69	84.18	85.80	95.11	91.46
GPT-4o-2024-11-20	89.77	87.55	86.00	94.58	91.70
Mistral OCR 2503	94.89	94.29	89.55	98.96	96.12