目录
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it‘s not in your PATH.
一、Tesseract 文本识别
Tesseract 是一个开源的光学字符识别(OCR)软件,用于将图像中的文本内容转换为可编辑的数字文本。它可以识别并提取图片(如扫描文档、照片、截图)中的字符、数字和符号,并将其转换为文本格式,方便后续的编辑、存储或数据处理。
Tesseract 的主要特点
- 开源免费:Tesseract 是由 Google 支持并维护的开源项目,可以免费使用,并支持多种平台(如 Windows、Linux 和 macOS)。
- 多语言支持:Tesseract 支持超过 100 种语言的文本识别,包括中、英文等常用语言,还支持自定义语言训练。
- 识别准确:对于清晰的印刷体文本,Tesseract 具有较高的识别精度,适合处理各种类型的文本图片。
- 灵活扩展:可以集成在 Python、Java 等编程语言的