对图片进行文字识别,使用pytesseract中的image_to_string方法,指定lang='chi_sim’进行中文文字识别,运行代码,报错如下:pytesseract.pytesseract.TesseractError: (1, ‘Error opening data file D:\pycharm2019\tesseract-ocr/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to your “tessdata” directory. Failed loading language ‘chi_sim’ Tesseract couldn’t load any languages! Could not initialize tesseract.’)
然后在GitHub上下载了中文的语言包chi_sim.traineddata,将其放在自己安装的tesseract下tessdata文件里,再运行代码则可以看到识别出的文字了。
如果图片中包含英文,可以将lang设置为lang=‘chi_sim+eng’
使用pytesseract库进行图片文字识别报错
最新推荐文章于 2024-12-02 18:12:28 发布
本文讲述了如何使用pytesseract进行中文图片文字识别,遇到的错误及解决方案,包括设置TESSDATA_PREFIX环境变量和下载并放置chi_sim.traineddata。同时介绍了如何处理包含英文的图片,通过lang参数组合识别。
1206

被折叠的 条评论
为什么被折叠?



