提示:适用于比较简单的结构(例如excel的截图),图片文字保证清晰
R-studio版本
其实Python有很多接口百度OCR,B站有很多应用性很强的教学可以学习下
#安装-可以直接Packages安装,加载包。
library(tesseract)
#先查看包含信息,和可以识别文字的包有哪些。
tesseract_info()
#首次要下载下语言库
tesseract_download("chi_tra") #繁体中文
tesseract_download("chi_sim") #简体中文【✔】
getwd()
#查看路径,图片支持JPG PNG。
text <- ocr('pic.png', engine = tesseract("chi_sim"))
cat(text)