Python 识别图片形式pdf的尝试，lang参数多语言包的设置（未解决但有收获）

PDF图片文字识别技巧

原创

已于 2024-06-14 17:22:23 修改 · 569 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#pdf #python #pycharm

于 2024-06-05 10:23:37 首次发布

想识别出pdf页面右下角某处的编号。pdf是图片形式页面。查了下方法，有源码是先将页面提取成jpg，再用pytesseract提取图片文件中的内容。

直接用图片来识别。纯数字的图片，如条形码，可识别。带中文的不可以，很乱。

识别为：

如何形成wps图片中的文字识别效果呢？

import pytesseract
from PIL import Image

# lang = 'chi_sim'
# lang = 'eng'
lang = 'eng+chi_sim'


def extract_text_from_image(image_path):
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang)
    return text


# image_path = r"D:\11.png"
image_path = r"D:\1111.png"
text = extract_text_from_image(image_path)
print(f"图片内容:\n{text}\n")
print('已安装的语言包列表为：', pytesseract.