Ollama-OCR 只需几行代码,轻松实现高质量文字识别!

Llama 3.2-Vision 是一种多模态大型语言模型,有 11B 和 90B 两种大小,能够处理文本和图像输入,生成文本输出。该模型在视觉识别、图像推理、图像描述和回答图像相关问题方面表现出色,在多个行业基准测试中均优于现有的开源和闭源多模态模型。

本文将介绍开源的 ollama-ocr[1] 工具,它默认使用本地运行的 Llama 3.2-Vision 视觉模型,可准确识别图像中的文字,同时保留原始格式。

https://github.com/bytefer/ollama-ocr

Ollama-OCR 的特点

  • 使用 Llama 3.2-Vision 模型进行高精度文本识别 保留原始文本格式和结构
  • 支持多种图像格式:JPG、JPEG、PNG
  • 可定制的识别提示和模型
  • Markdown 输出格式选项

Llama 3.2-Vision 应用场景

识别手写文本

img

OCR 识别

img

图片问答

img

配置环境

安装 Ollama

在开始使用 Llama 3.2-Vision 之前,您需要安装 Ollama[2],这是一个支持在本地运行多模态模型的平台。请按照以下步骤安装:

\1. 下载 Ollama:访问 Ollama 官方网站,下载适用于您操作系统的安装包。

img

\2. 安装 Ollama:根据下载的安装包,按照提示完成安装。

安装 Llama 3.2-Vision 11B

安装 Ollama 后,可使用以下命令安装 Llama 3.2-Vision 11B[3]:

ollama run llama3.2-vision

安装 Ollama-OCR

npm install ollama-ocr
# or using pnpm
pnpm add ollama-ocr

使用 Ollama-OCR

OCR

import { ollamaOCR, DEFAULT_OCR_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./handwriting.jpg",
    systemPrompt: DEFAULT_OCR_SYSTEM_PROMPT,
  });
  console.log(text);
}

测试的图片如下:

img

输出的结果如下:

The Llama 3.2-Vision collection of multimodal large language models (LLMs) is a collection of instruction-tuned image reasoning generative models in 118 and 908 sizes (text + images in / text out). The Llama 3.2-Vision instruction-tuned models are optimized for visual recognition, image reasoning, captioning, and answering general questions about an image. The models outperform many of the available open source and closed multimodal models on common industry benchmarks.

输出 Markdown

import { ollamaOCR, DEFAULT_MARKDOWN_SYSTEM_PROMPT } from "ollama-ocr";

async function runOCR() {
  const text = await ollamaOCR({
    filePath: "./trader-joes-receipt.jpg",
    systemPrompt: DEFAULT_MARKDOWN_SYSTEM_PROMPT,
  });
  console.log(text);
}

测试的图片如下:

img

输出的结果如下:

img

ollama-ocr 使用的本地的视觉模型,如果你想使用线上的 Llama 3.2-Vision 模型,可以试试 llama-ocr[4] 这个库。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

下面这些都是我当初辛苦整理和花钱购买的资料,现在我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

Dify是一款面向开发者的开源大型语言模型(LLM)应用平台,专注于简化生成式人工智能应用程序的构建和部署过程。对于希望利用大模型能力但又关注数据隐私及安全性的企业或个人来说,Dify提供了一种解决方案。 关于Ollama,这是指一种可以运行特定版本的语言模型的服务或者框架。例如,在某些情况下,用户可能指的是像Llama这样的预训练语言模型系列中的某个具体版本或是其他类似服务提供的模型实例。结合Dify使用时,可以通过Ollama来加载不同的模型用于各种自然语言处理任务。 为了更好地理解如何将两者结合起来应用于实际项目中,下面是一些关键点: - **Dify简介**:作为一个开放源码平台,Dify让开发者能更便捷地创建基于大语言模型的应用程序。 - **添加Ollama模型问答**:这涉及到配置Dify以支持来自Ollama的不同模型来进行文本交互式的问答会话。 - **基于知识库问答**:除了直接调用预训练好的通用型大模型外,还可以通过整合内部或外部的知识资源增强回复的质量和准确性。 - **多模态对话与智能体**:当集成了诸如OpenWebUI之类的界面工具后,不仅可以处理文字输入输出,还能扩展至图片识别等领域;同时也可以设计出更加复杂的自动化流程——即所谓的“智能体”。 此外,有关于本地化部署的信息也值得注意。比如,可以在不同操作系统环境下设置好环境之后,下载所需的具体模型文件并通过简单的命令行指令启动服务。这样做的好处在于即使没有互联网连接也能保证系统的正常运作,并且所有交流都发生在局域网之内从而提高了安全性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值