Python 识别图片形式pdf的尝试,lang参数多语言包的设置(未解决但有收获)

想识别出pdf页面右下角某处的编号。pdf是图片形式页面。查了下方法,有源码是先将页面提取成jpg,再用pytesseract提取图片文件中的内容。

直接用图片来识别。纯数字的图片,如条形码,可识别。带中文的不可以,很乱。

识别为:

如何形成wps图片中的文字识别效果呢?

import pytesseract
from PIL import Image

# lang = 'chi_sim'
# lang = 'eng'
lang = 'eng+chi_sim'


def extract_text_from_image(image_path):
    image = Image.open(image_path)
    text = pytesseract.image_to_string(image, lang)
    return text


# image_path = r"D:\11.png"
image_path = r"D:\1111.png"
text = extract_text_from_image(image_path)
print(f"图片内容:\n{text}\n")
print('已安装的语言包列表为:', pytesseract.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五月春生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值