R语言图片识别文字 PNG JPG图片转文字 OCR tesseract包

最新推荐文章于 2025-05-14 11:27:31 发布

原创最新推荐文章于 2025-05-14 11:27:31 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#r语言

该博客介绍了如何在R-studio中利用tesseract包进行OCR操作，特别是针对中文内容的识别。首先，需要安装并加载tesseract库，然后下载相应的中文语言库。通过示例代码展示了识别图片中文字的过程，尽管警告提示路径不应包含中文，但最终仍能实现图片到Excel的文本转换处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：适用于比较简单的结构（例如excel的截图），图片文字保证清晰

R-studio版本

其实Python有很多接口百度OCR，B站有很多应用性很强的教学可以学习下

#安装-可以直接Packages安装，加载包。
library(tesseract)
#先查看包含信息，和可以识别文字的包有哪些。
tesseract_info() 
#首次要下载下语言库
tesseract_download("chi_tra")  #繁体中文
tesseract_download("chi_sim")  #简体中文【✔】

getwd()
#查看路径，图片支持JPG PNG。
text <- ocr('pic.png', engine = tesseract("chi_sim"))
cat(text)