一、安装库
首先我们需要安装PIL和pytesseract库。
PIL:(Python Imaging Library)是Python平台上的图像处理标准库,功能非常强大。
pytesseract:图像识别库。
我这里使用的是python3.6,PIL不支持python3所以使用如下命令
pip install pytesseract
pip install pillow
如果是python2,则在命令行执行如下命令:
pip install pytesseract
pip install PIL
这时候我们去运行上面的代码会发现如下错误:
错误提示的很明显:
No such file or directory :"tesseract"
这是因为我们没有安装tesseract-ocr引擎
二、tesseract-ocr引擎
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的

本文介绍了如何在Python中进行图像识别,重点是使用PIL和pytesseract库。首先讲解了安装PIL和pytesseract的步骤,接着详细阐述了tesseract-ocr引擎的工作原理和历史。在安装tesseract-ocr时,强调了添加语言包和设置PSM参数的重要性。最后,提到了在实际应用中如何结合多个语言包进行文本识别,并提供了获取更多资源的联系方式。
最低0.47元/天 解锁文章
246

被折叠的 条评论
为什么被折叠?



