文章目录
一.OCR光学字符识别
OCR(Optical Character Recognition),光学字符识别
,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程
。对于图形验证码
来说,它们都是一些不规则的字符,这些字符确实是由字符稍加扭曲变
换得到的内容。
- 利用python做图片识别,识别提取图片中的文字会有很多方法,但是想要简单一点怎么办,那就可以使用
tesseract识别引擎
来实现,一行代码就可以做到提取图片文本。
二.Tesseract识别引擎
tesseract是什么
- Python的Tesseract是一个
开源
的OCR(Optical Character Recognition,光学字符识别)引擎,,能识别100多种语言,专门用于对图片文字进行识别,并获取文本。但是它的缺点是对手写的识别能力比较差。
- 基于Google的
Tesseract OCR
引擎,并提供了Python的接口,使得在Python环境中使用OCR变
的超级简单
- 基于Google的
- 与 Microsoft Office Document Imaging(MODI)<