使用Marker和OCR从文档和图像中提取文本
Datalab先进的文档解析和文本提取模型现已上线某平台。
模型功能
Marker可将PDF、DOCX、PPTX、图像等格式转换为Markdown或JSON。它能够格式化表格、数学公式和代码,提取图像,并在传入JSON Schema时提取特定字段。
OCR支持从图像和文档中检测90种语言的文本,并返回阅读顺序和表格网格。
Marker模型基于流行的开源Marker项目(29k GitHub星标),OCR基于Surya(19k GitHub星标)。
使用示例
运行Marker
import replicate
output = replicate.run(
"datalab-to/marker",
input={
"file": open("report.pdf", "rb"),
"mode": "balanced", # fast / balanced / accurate
"include_metadata": True, # 返回页面级JSON元数据
},
)
print(output["markdown"][:400])
运行OCR
import replicate
output = replicate.run(
"datalab-to/ocr",
input={
"file": open("receipt.jpg", "rb"),
"visualize": True, # 返回带有检测文本红色多边形标注的输入图像
"return_pages": True, # 返回布局数据
},
)
print(output["text"][:200])
结构化提取
Marker的一个强大功能是结构化提取。例如,可以从发票中提取特定字段:
import json
import replicate
schema = {
"type": "object",
"properties": {
"vendor": {"type": "string"},
"invoice_number": {"type": "string"},
"date": {"type": "string"},
"total": {"type": "number"}
}
}
output = replicate.run(
"datalab-to/marker",
input={
"file": "https://multimedia-example-files.replicate.dev/replicator-invoice.1page.pdf",
"page_schema": json.dumps(schema),
}
)
structured_data = json.loads(output["extraction_schema_json"])
print(structured_data)
性能表现
使用olmOCR-Bench基准测试评估Marker性能,该数据集包含1,403个PDF文件和7,010个测试用例,评估OCR系统将PDF文档准确转换为Markdown格式的能力。
Marker在所有测试模型中表现最佳,超越了GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。
| 模型 | ArXiv | 旧扫描文档数学 | 表格 | 旧扫描文档页眉页脚 | 多列 | 长小文本 | 基础 | 总体 |
|---|---|---|---|---|---|---|---|---|
| Datalab Marker (平衡模式) | 81.4 | 80.3 | 89.4 | 50.0 | 88.3 | 81.0 | 91.6 | 99.9 |
| Datalab Marker (快速模式) | 83.8 | 69.7 | 74.8 | 32.3 | 86.6 | 79.4 | 85.7 | 99.6 |
| Mistral OCR API | 77.2 | 67.5 | 60.6 | 29.3 | 93.6 | 71.3 | 77.1 | 99.4 |
| Deepseek OCR | 75.2 | 67.9 | 79.1 | 32.9 | 96.1 | 66.3 | 78.5 | 97.7 |
| Nanonets OCR | 67.0 | 68.6 | 77.7 | 39.5 | 40.7 | 69.9 | 53.4 | 99.3 |
| GPT-4o (锚定) | 53.5 | 74.5 | 70.0 | 40.7 | 93.8 | 69.3 | 60.6 | 96.8 |
| Gemini Flash 2 (锚定) | 54.5 | 56.1 | 72.1 | 34.2 | 64.7 | 61.5 | 71.5 | 95.6 |
| Qwen 2.5 VL (无锚定) | 63.1 | 65.7 | 67.3 | 38.6 | 73.6 | 68.3 | 49.1 | 98.3 |
| olmOCR v0.3.0 | 78.6 | 79.9 | 72.9 | 43.9 | 95.1 | 77.3 | 81.2 | 98.9 |
价格信息
Marker定价:
- 快速和平衡模式下,不使用page_schema时每1000页4美元
- 使用page_schema进行结构化提取时每1000页6美元
- 精确模式下每1000页6美元
OCR定价为每1000页2美元。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
3万+

被折叠的 条评论
为什么被折叠?



