R语言 图片识别文字 PNG JPG图片转文字 OCR tesseract包

该博客介绍了如何在R-studio中利用tesseract包进行OCR操作,特别是针对中文内容的识别。首先,需要安装并加载tesseract库,然后下载相应的中文语言库。通过示例代码展示了识别图片中文字的过程,尽管警告提示路径不应包含中文,但最终仍能实现图片到Excel的文本转换处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

提示:适用于比较简单的结构(例如excel的截图),图片文字保证清晰

R-studio版本

其实Python有很多接口百度OCR,B站有很多应用性很强的教学可以学习下

#安装-可以直接Packages安装,加载包。
library(tesseract)
#先查看包含信息,和可以识别文字的包有哪些。
tesseract_info() 
#首次要下载下语言库
tesseract_download("chi_tra")  #繁体中文
tesseract_download("chi_sim")  #简体中文【✔】

getwd()
#查看路径,图片支持JPG PNG。
text <- ocr('pic.png', engine = tesseract("chi_sim"))
cat(text)

警告:路径不允许有中文

截图情况 图片

在这里插入图片描述

识别结果,后面直接复制到Excel分裂处理

在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值