Ollama-OCR:利用视觉语言模型从图像中提取文本

Ollama-OCR利用视觉语言模型从图像中提取文本。

本文将介绍 Ollama-OCR 的关键特点、安装方法、快速开始指南以及输出格式的详细信息。

github:https://github.com/imanoop7/Ollama-OCR

需安装:ollama https://ollama.com/download

特点

  • 支持多种视觉模型:Ollama-OCR 支持包括 LLaVA 7B 和 Llama 3.2 Vision 在内的视觉模型,这些模型能够处理实时和复杂文档的文本识别任务。

  • 多种输出格式:支持输出格式包括 Markdown、纯文本、JSON、结构化数据和键值对格式。

  • 用户友好的界面:提供拖放图片上传、实时处理、下载提取文本和图像预览等功能。

  • 批量处理能力:支持并行处理多个图像,并能跟踪每个图像的处理进度。

整合包

https://pan.quark.cn/s/a22e24638212

快速开始

在使用 Ollama-OCR 之前,需要安装 Ollama 并拉取所需的模型:

ollama pull llama3.2-vision:11b

输出格式详情

  • Markdown 格式:输出为包含从图像中提取的文本的 Markdown 字符串。

  • 文本格式:输出为包含从图像中提取的文本的纯文本字符串。

  • JSON 格式:输出为包含从图像中提取的文本的 JSON 对象。

  • 结构化格式:输出为包含从图像中提取的文本的结构化对象。

  • 键值格式:输出为包含从图像中提取的文本的字典。

Streamlit Web 应用程序

Ollama-OCR 还提供了一个基于 Streamlit 的 Web 应用程序,支持批量处理,具有用户友好的界面,包括拖放图片上传、实时处理、下载提取文本和图像预览等功能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

云樱梦海

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值