AI智能体(Agent)大模型入门【8】--关于ocr文字识别图片识别

目录

前言

OCR 的定义

OCR 的工作原理

OCR 的应用场景

常见的 OCR 工具

技术挑战

ocr安装

ocr使用演示


前言

本篇章不涉及代码,主要涉及有关于ocr具体是干什么的,以及如何安装ocr,在下一篇章将会教学ocr的代码写法。

OCR 的定义

OCR(Optical Character Recognition,光学字符识别)是一种将图片、扫描文档或手写文字中的字符转换为可编辑和可搜索的文本数据的技术。其核心是通过算法分析图像中的像素分布,识别并提取文字信息。

OCR 的工作原理

  1. 图像预处理:对输入图像进行降噪、二值化、倾斜校正等操作,提升识别准确率。
  2. 文本检测:定位图像中的文字区域,通常通过深度学习模型(如CNN、YOLO)实现。
  3. 字符分割与识别:将检测到的文字分割为单个字符,利用分类模型(如LSTM、Transformer)识别字符内容。
  4. 后处理:根据语言模型或上下文修正识别结果(如纠错、格式优化)。

OCR 的应用场景

  • 文档数字化:将纸质文件转换为电子文档(如PDF、Word)。
  • 金融领域:自动识别银行卡、身份证、发票等信息。
  • 工业自动化:读取产品标签、流水线编码。
  • 移动应用:实时翻译、手写笔记转文字。

常见的 OCR 工具

  • 开源工具:Tesseract、EasyOCR。
  • 商业服务:Google Cloud Vision、Azure Computer Vision、Adobe Acrobat。
  • 移动端 SDK:百度OCR、腾讯OCR。

技术挑战

  • 复杂背景干扰:图像中的噪点、水印可能降低识别率。
  • 多语言混合:需支持不同语种或特殊符号(如数学公式)。
  • 手写体识别:因书写风格差异,准确率低于印刷体。

OK以上就是有关于ocr的快速了解信息,那么接下来就是如何安装相关的ocr了,以及ocr在本地如何使用(代码链接需要下一篇章讲解)

ocr安装

有很多ocr可以选择,但是为了教学和免费使用ocr我们选择一个开源轻便的小巧工具umi-ocr

GitHub - hiroi-sora/Umi-OCR: OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片,PDF文档识别,排除水印/页眉页脚,扫描/生成二维码。内置多国语言库。

进入到该页面,找到右侧栏

点击这个+30进行下载

然后下拉找到如图片所示的位置,依据自己的电脑进行下载安装即可

安装很简单

后续

找到全局设置

然后将服务改为任何可用地址,其他不变。

ocr使用演示

在此处随便拖入一个文件

例如图片这样,然后点击开始任务

然后右边就会出现一些文字,比如传入图片也是一样的,不过呢,传入这些图片需要带有文字,否则失败无法识别,至于原因在篇章刚开始的时候已经提到过了

到这里,ocr基本介绍完成,将会在下一篇章介绍如何在pycharm中编写调用ocr工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值