pytesseract

方法

get_tesseract_version,返回tesseract的版本.
image_to_string,返回识别的字符串
image_to_boxes,返回字符和位置
image_to_data,返回边框,置信度和其他的信息,可以参考Tesseract TSV
image_to_osd,返回orientation and script detection

参数
image Object, PIL Image/NumPy array of the image to be processed by Tesseract
lang String, Tesseract language code string
config String, Any additional configurations as a string, ex: config=’–psm 6’
nice Integer, modifies the processor priority for the Tesseract run. Not supported on Windows. Nice adjusts the niceness of unix-like processes.
output_type Class attribute, specifies the type of the output, defaults to string. For the full list of all supported types, please check the definition of pytesseract.Output class.

### 使用 PyTesseract 进行 OCR 文字识别 为了使用 PyTesseract 执行文字识别,需先配置 Tesseract 的路径。具体来说,在 Python 脚本中应指定 `pytesseract` 命令的位置: ```python import pytesseract pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' ``` 上述命令设定了 Tesseract 可执行文件的具体位置[^1]。 接着,通过加载图像并调用 `pytesseract.image_to_string()` 方法来提取其中的文字信息。下面是一个简单的例子展示如何读取图片中的文本: ```python from PIL import Image def ocr_core(image_path): text = pytesseract.image_to_string(Image.open(image_path)) return text image_file = 'example.png' # 图片路径 print(ocr_core(image_file)) ``` 这段代码会打开名为 `example.png` 的图像文件,并打印出由该图转换而来的字符串内容[^3]。 另外,如果希望提高程序的兼容性和便捷性,可以考虑将 Tesseract 安装目录加入系统的 PATH 环境变量里。这样就不必每次都手动设定 `pytesseract.pytesseract.tesseract_cmd` 属性了。这一步骤涉及修改 Windows 操作系统内的环境变量设置,即在用户变量或系统变量下的 Path 中追加 `"C:\Program Files (x86)\Tesseract-OCR"` 或者实际安装路径[^2]。 最后,验证 Tesseract 是否正确安装的一个简单方法是在命令提示符下输入 `tesseract --version` 来查看版本号;如果有显示,则说明安装无误。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值