OpenCV与AI深度学习 | Ollama-OCR：现在可作为 Python 包使用！

Ollama-OCR：可作Python包的先进OCR工具

最新推荐文章于 2025-05-09 20:29:16 发布

原创最新推荐文章于 2025-05-09 20:29:16 发布 · 1.4k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #opencv #深度学习 #ocr #python #语言模型 #自然语言处理

深度学习拓展阅读同时被 2 个专栏收录

989 篇文章

订阅专栏

OCR专栏

7 篇文章

订阅专栏

本文来源公众号“OpenCV与AI深度学习”，仅用于学术分享，侵权删，干货满满。

原文链接：Ollama-OCR：现在可作为 Python 包使用！

完整代码：GitHub - imanoop7/Ollama-OCR

对于开发人员和 OCR 爱好者来说是个好消息——Ollama -OCR现已作为 Python 包提供！🎉

此次更新使将Ollama-OCR集成到您现有的应用程序、工作流程或自动化脚本中变得比以往更加容易。只需几行代码，您现在就可以直接在 Python 中利用最先进的 OCR 功能。

🌟 主要特点：

1. 多种视觉模型

选择适合您需求的型号：

LLaVA 7B：轻量且快速，可实时提取文本。

Llama 3.2 Vision：对于复杂的布局和详细的文本具有较高的精度。

或 Ollama 上提供的任何其他视觉模型

2. 灵活的输出格式

Ollama-OCR 支持多种输出格式，以适应不同的用例：

- Markdown：保留结构化格式，如标题、列表和项目符号。
- 纯文本：提取干净、未格式化的文本。
- JSON：机器可读的结构化输出，易于集成。
- 结构化格式：提取并按层次组织表格和内容。
- 键值对：适用于表格、收据或标记数据提取。

3. 离线和私密

您的数据保留在本地。Ollama-OCR 离线处理图像，确保您的敏感信息保持私密。

🚀 如何使用

安装

要开始使用 Ollama-OCR，只需使用 pip 安装该包：

pip install ollama-ocr

确保 Ollama 服务器已启动并正在运行，并且已安装所需的模型以最大化您的 OCR 体验。

ollama pull llama3.2-vision:11b

简单和高级用法

以下是一个可帮助您入门的简单示例：

from ollama_ocr import OCRProcessor
# Initialize OCR processorocr = OCRProcessor(model_name='llama3.2-vision:11b')  # You can use any vision model available on Ollama
# Process an imageresult = ocr.process_image(    image_path="path/to/your/image.png",    format_type="markdown"  # Options: markdown, text, json, structured, key_value)print(result)

# Invoice #1024

## Billed To:

- Really Great Company

## Pay To:

- Avery Davis
123 Anywhere St., Any City
123 456 7890

## Bank Account Information:

- Bank: Really Great Bank
- Account Name: John Smith
- BSB: 000 000
- Account Number: 0000 0000

## Invoice Details:

### Description:
- Content Plan: $200.00
- Copy Writing: $100.00
- Website Design: $250.00
- Website Development: $500.00
- SEO: $200.00

### Subtotal: $1,250.00 (30% discount)
- Total: $875.00

## Payment Terms:

- Payment is required within 14 business days of invoice date.
- Please send remittance to hello@reallygreatsite.com.

# Thank you for your business.

💡 应用场景

- 发票处理：自动将供应商名称、金额和日期等详细信息提取为会计软件的键值对。
- 表格提取：将扫描文档中的表格中的结构化数据提取为 JSON 或 CSV 格式。
- 内容管理系统：集成 OCR 来索引基于图像的文件，以便于搜索和检索。
- 表单解析：将扫描表单中的字段提取为后端系统的标记数据。
- 研究论文：从基于图像的学术论文中的图表和表格中提取文本以供进一步分析。

Ollama-OCR 的 5 大集成用例

- 文档管理系统通过从扫描文档中提取和索引可搜索文本来增强 SharePoint 或 Google Drive 等工具。
- 会计软件自动从发票和收据中提取数据以填充 QuickBooks 或 Xero 等平台中的字段。
- 电子商务平台从基于图像的目录中提取产品详细信息，以自动为 Shopify 或 WooCommerce 创建列表。
- 医疗保健应用将医疗记录和处方数字化，以便集成到电子病历 (EMR) 系统中。
- 人工智能聊天机器人使聊天机器人能够智能地解释和响应从用户上传的图像中提取的文本。

使用 Ollama-OCR 解锁新的可能性

Ollama-OCR功能多样、易于使用且功能强大，是将 OCR 集成到任何工作流程中的终极解决方案。无论您是管理文档、自动化流程还是构建创新应用程序，此 Python 软件包都可以让您以前所未有的方式提取和利用文本。

THE END !

文章结束，感谢阅读。您的点赞，收藏，评论是我继续更新的动力。大家有推荐的公众号可以评论区留言，共同学习，一起进步。