聊一聊调试Tesseract-OCR和pytesseract过程中遇到的DPI的坑
环境
OS:windows 10
python:3.9.4
tesseract:v5.0.0-alpha.20200223
pytesseract:0.3.7
Pillow:8.2.0
fonttools:4.22.0
最近在做python爬虫项目的过程中,遇到了woff字体加密的页面需要破解。基本上解决方案就两种,一是将字体文件解析xml,根据xml中每个字的笔画数据特点识别出文字;二是用OCR直接识别文字;我选的是第二种,通用性更强一些。具体过程:
1、安装Tesseract-OCR
程序和语言模块都从这里下载:https://github.com/tesseract-ocr/tesseract
用户手册:https://tesseract-ocr.github.io/tessdoc/Home.html
我装的版本是:tesseract v5.0.0-alpha.20200223,安装在C:\Program Files\Tesseract-OCR
软件安装完毕后,需要检查一下环境变量是否设置好:
TESSDATA_PREFIX,路径指向"C:\Program Files\Tesseract-OCR\tessdata"文件夹
新建path,指向C:\Program Files\Tesseract-OCR
2、安装pytesseract、Pillow和fonttools
pip install pytesseract
安装完毕后修改pytesseract.py文件,tesseract_cmd = ‘C:/Program Files/Tesseract-OCR/tesseract.exe’
pip install pillow
pip install fonttools
3、测试
将一张待识别图片拷贝到D盘根目录,然后打开PowerShell执行"tesseract d:\temp.png 1",打开d:\1.txt,发现识别有错误,我只需要做数字字符的识别,所以再加个参数变成这样“tesseract .\temp.png 1 digits”,完美识别
4、程序
# -*- coding:utf8 -*-
from PIL import Image, ImageDraw, ImageFont
from fontTools.ttLib import TTFont
import pytesseract
def DrawFont(font, char):
s = font.getsize(char)
image = Image.new('RGB', (s[0], s[1] + 10), color='white')
draw = ImageDraw.Draw(image)
draw.text((0, 0), char, font=font, fill='black')
return image
if __name__ == '__main__':
# 打开字体文件
font = ImageFont.truetype(r'0f52e9f5.woff'