olmOCR 是一款开源的光学字符识别(OCR)工具,旨在高效地将 PDF 及其他文档转换为纯文本,同时保留自然的阅读顺序。这款工具不仅支持普通文本的提取,还能处理表格、数学公式和手写内容,极大地方便了用户对文档的处理需求。
款工具的核心优势在于其高准确率。olmOCR 经过大量学术论文、技术文档及其他参考内容的训练,采用独特的提示技术来提高识别的准确性,并降低错误信息的生成。这使得用户在使用时能获得更为精准的转换结果。
目前,olmOCR 的模型主要针对英语文档进行了优化,其他语言的文档转换效果可能不尽如人意。用户可以通过在线演示来尝试该工具,并在自己的文档上进行测试。对于需要更高处理效率的用户,可以选择在自己的 GPU 上部署完整的 olmOCR 工具包,享受高效、可扩展的文档处理能力。
需要注意的是,在线演示会按页面顺序逐一处理文档,而在工具包中则可以使用批量模式以实现更高的处理速度。此外,olmOCR 支持多种文件格式,包括 PDF、JPG 和 PNG,用户可以根据需求选择合适的文件进行转换。无论是学术论文、数学教科书、手写内容还是历史文档,olmOCR 都能提供有效的解决方案。
随着数字化进程的加快,文档的电子化已成为一种趋势。olmOCR 的出现为这一趋势提供了有力的技术支持,使得用户能够更轻松地将纸质文档转化为可编辑的数字格式。这不仅提高了工作效率,也为信息的存储和分享带来了便利。
github:https://github.com/allenai/olmocr
快速上手
该模型需要输入一张文档图像,渲染后最长尺寸为 1024 像素。
然后,提示必须包含文档的附加元数据,而生成元数据的最简单方法就是使用 olmOCR 工具包提供的方法。
手动提示
如果您想手动提示此模型,而不是使用 olmOCR 工具包,请参阅下面的代码。
在正常使用中,olmOCR 工具包会通过渲染 PDF 页面、提取相关文本块和图像元数据来创建提示。要复制这一过程,您需要
pip install olmocr
然后运行以下示例代码。
import torch
import base64
import urllib.request
from io import BytesIO
from PIL import Image
from transformers import AutoProcessor, Qwen2VLForConditionalGeneration
from olmocr.data.renderpdf import render_pdf_to_base64png
from olmocr.prompts import build_finetuning_prompt
from olmocr.prompts.anchor import get_anchor_text
# Initialize the model
model = Qwen2VLForConditionalGeneration.from_pretrained("allenai/olmOCR-7B-0225-preview", torch_dtype=torch.bfloat16).eval()
processor = AutoProcessor.from_pretrained("Qwen/Qwen2-VL-7B-Instruct")
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
# Grab a sample PDF
urllib.request.urlretrieve("https://molmo.allenai.org/paper.pdf", "./paper.pdf")
# Render page 1 to an image
image_base64 = render_pdf_to_base64png("./paper.pdf", 1, target_longest_image_dim=1024)
# Build the prompt, using document metadata
anchor_text = get_anchor_text("./paper.pdf", 1, pdf_engine="pdfreport", target_length=4000)
prompt = build_finetuning_prompt(anchor_text)
# Build the full prompt
messages = [
{
"role": "user",
"content": [
{"type": "text", "text": prompt},
{"type": "image_url", "image_url": {"url": f"data:image/png;base64,{image_base64}"}},
],
}
]
# Apply the chat template and processor
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
main_image = Image.open(BytesIO(base64.b64decode(image_base64)))
inputs = processor(
text=[text],
images=[main_image],
padding=True,
return_tensors="pt",
)
inputs = {key: value.to(device) for (key, value) in inputs.items()}
# Generate the output
output = model.generate(
**inputs,
temperature=0.8,
max_new_tokens=50,
num_return_sequences=1,
do_sample=True,
)
# Decode the output
prompt_length = inputs["input_ids"].shape[1]
new_tokens = output[:, prompt_length:]
text_output = processor.tokenizer.batch_decode(
new_tokens, skip_special_tokens=True
)
print(text_output)
# ['{"primary_language":"en","is_rotation_valid":true,"rotation_correction":0,"is_table":false,"is_diagram":false,"natural_text":"Molmo and PixMo:\\nOpen Weights and Open Data\\nfor State-of-the']