文档图像文本提取技术与OCR应用解析

最新推荐文章于 2025-12-19 19:04:04 发布

原创最新推荐文章于 2025-12-19 19:04:04 发布 · 857 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#ocr #OCR #文本提取 #文档解析 #程序那些事 #AIGC #机器学习

使用Marker和OCR从文档和图像中提取文本

Datalab先进的文档解析和文本提取模型现已上线某平台。

模型功能

Marker可将PDF、DOCX、PPTX、图像等格式转换为Markdown或JSON。它能够格式化表格、数学公式和代码，提取图像，并在传入JSON Schema时提取特定字段。

OCR支持从图像和文档中检测90种语言的文本，并返回阅读顺序和表格网格。

Marker模型基于流行的开源Marker项目（29k GitHub星标），OCR基于Surya（19k GitHub星标）。

使用示例

运行Marker

import replicate

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": open("report.pdf", "rb"),
        "mode": "balanced",  # fast / balanced / accurate
        "include_metadata": True,  # 返回页面级JSON元数据
    },
)
print(output["markdown"][:400])

运行OCR

import replicate

output = replicate.run(
    "datalab-to/ocr",
    input={
        "file": open("receipt.jpg", "rb"),
        "visualize": True,  # 返回带有检测文本红色多边形标注的输入图像
        "return_pages": True,  # 返回布局数据
    },
)
print(output["text"][:200])

结构化提取

Marker的一个强大功能是结构化提取。例如，可以从发票中提取特定字段：

import json
import replicate

schema = {
    "type": "object",
    "properties": {
        "vendor": {"type": "string"},
        "invoice_number": {"type": "string"},
        "date": {"type": "string"},
        "total": {"type": "number"}
    }
}

output = replicate.run(
    "datalab-to/marker",
    input={
        "file": "https://multimedia-example-files.replicate.dev/replicator-invoice.1page.pdf",
        "page_schema": json.dumps(schema),
    }
)
structured_data = json.loads(output["extraction_schema_json"])
print(structured_data)

性能表现

使用olmOCR-Bench基准测试评估Marker性能，该数据集包含1,403个PDF文件和7,010个测试用例，评估OCR系统将PDF文档准确转换为Markdown格式的能力。

Marker在所有测试模型中表现最佳，超越了GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。

模型	ArXiv	旧扫描文档数学	表格	旧扫描文档页眉页脚	多列	长小文本	基础	总体
Datalab Marker (平衡模式)	81.4	80.3	89.4	50.0	88.3	81.0	91.6	99.9
Datalab Marker (快速模式)	83.8	69.7	74.8	32.3	86.6	79.4	85.7	99.6
Mistral OCR API	77.2	67.5	60.6	29.3	93.6	71.3	77.1	99.4
Deepseek OCR	75.2	67.9	79.1	32.9	96.1	66.3	78.5	97.7
Nanonets OCR	67.0	68.6	77.7	39.5	40.7	69.9	53.4	99.3
GPT-4o (锚定)	53.5	74.5	70.0	40.7	93.8	69.3	60.6	96.8
Gemini Flash 2 (锚定)	54.5	56.1	72.1	34.2	64.7	61.5	71.5	95.6
Qwen 2.5 VL (无锚定)	63.1	65.7	67.3	38.6	73.6	68.3	49.1	98.3
olmOCR v0.3.0	78.6	79.9	72.9	43.9	95.1	77.3	81.2	98.9