Python 安装使用 tesseract OCR 识别中文

原创已于 2023-08-07 15:00:31 修改 · 1.6k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #ocr #开发语言

于 2018-12-24 22:39:05 首次发布

Python/Flask 同时被 2 个专栏收录

69 篇文章

订阅专栏

Linux

67 篇文章

订阅专栏

本文详细介绍了如何在CentOS系统下安装并配置Tesseract OCR引擎，包括安装Tesseract、Pytesseract，下载中文训练集，以及使用Python进行图片文字识别的方法。同时，针对图片识别准确率不高的问题，提供了增强图片对比度的解决方案。

部署运行你感兴趣的模型镜像

前言：

i、中文识别效果更好的开源OCR库：CnOCR 使用教程

ii、6款开源中文OCR使用介绍（亲测效果）：点我查看

iii、windows安装 tesserract教程：

windows安装：点我查看教程1、点我查看教程2

windows安装完成，设置好环境变量后，报找不到路径的错误点这里：解决办法

本文为 CentOS 下安装教程

Tesseract的OCR引擎目前已作为开源项目发布在Google Project，其项目主页在这里查看 https://github.com/tesseract-ocr，
它支持中文OCR，并提供了一个命令行工具。python中对应的包是pytesseract. 通过这个工具我们可以识别图片上的文字。

1、安装tesseract

yum install tesseract

2、安装pytesseract

pip install pytesseract

3、下载对应的中文训练集：https://github.com/tesseract-ocr/tessdata，下载”chi_sim.traineddata”，然后copy到训练数据集的存放路径。我安装后拷贝的路径是：

/usr/share/tesseract/tessdata

4、使用python调用识别中文

import pytesseract
from PIL import Image

image = Image.open('data/ocr.png')
print pytesseract.image_to_string(image, lang = 'chi_sim')

5、图片识别准确率不高问题

from PIL import Image, ImageEnhance


image = Image.open('data/tesseract.png')
enhancer = ImageEnhance.Contrast(image)
image = enhancer.enhance(4)

import platform
import pytesseract
from PIL import Image, ImageEnhance


image = Image.open('data/tesseract.png')
enhancer = ImageEnhance.Contrast(image)
image = enhancer.enhance(4)

if platform.system() == 'Windows':
    pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract"
    tessdata_dir_config = '--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"'
    print pytesseract.image_to_string(image, lang = 'chi_sim', config = tessdata_dir_config)
else:
    print pytesseract.image_to_string(image, lang = 'chi_sim')

如果需要使用更高精度的可以尝试百度的API：文字识别-百度智能云

参考：wxPython利用pytesser模块实现图片文字识别_v2psv的博客-优快云博客

您可能感兴趣的与本文相关的镜像