首先要安装pillow和pytesseract
pip install pillow
pip install pytesseract
安装Tesseract
tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/
然后全选一路往下就行……
配置环境
配置tesseract的安装路径
执行命令
setx TESSDATA_PREFIX G:\tesseract\tessdata
测试代码
from PIL import Image
import subprocess
def cleanFile(filePath, newFilePath):
image = Image.open(filePath)
# 对图片进行阈值过滤,然后保存
image = image.point(lambda x: 0 if x < 143 else 255)
image.save(newFilePath)
# 调用系统的tesseract命令对图片进行OCR识别
subprocess.call(["tesseract", newFilePath, "output"])
# 打开文件读取结果
# 打开文件读取结果
for line in open("output.txt", 'r', encoding='UTF-8'):
print(line)
cleanFile("download/b.jpg", "text_2_clean.png")
执行!!!!
完美再来试试!!!
ok~简单的一个识别图像的Demo完成了!!!!