一、概述
OCR(Optical character recognition,光学字符识别)是一种将图像中的手写字或者印刷文本转换为机器编码文本的技术,可以将图片,纸质文档中的文本转换为数字形式的文本。
OCR过程一般包括以下步骤:
1、图像预处理
2、文本定位
3、字符分割
4、字符识别
5、后处理
pytesseract是基于Python的OCR工具, 底层使用的
一、概述
OCR(Optical character recognition,光学字符识别)是一种将图像中的手写字或者印刷文本转换为机器编码文本的技术,可以将图片,纸质文档中的文本转换为数字形式的文本。
OCR过程一般包括以下步骤:
1、图像预处理
2、文本定位
3、字符分割
4、字符识别
5、后处理
pytesseract是基于Python的OCR工具, 底层使用的