Python基于easyocr和fitz实现的pdf转文字

文章描述了一个竞赛项目中使用EasyOCR进行OCR文字识别的过程。由于团队缺乏人工智能知识,选择了易用的EasyOCR库,但该库仅支持图片格式。因此,借助PyMuPDF将PDF转换为图片,然后通过EasyOCR识别图片中的文字。转换过程包括使用fitz打开PDF,调整图像大小和清晰度,保存为PNG图片,最后通过EasyOCR读取和转换图片文字。

为了完成一个竞赛作品,需要自主开发一个ocr文字识别模型,奈何组内无懂得人工智能的同学,退而求其次之,使用已经存在的框架开发一个能够实现pdf文件转文字的模块。

基于时间和使用难度的考虑,我最后决定使用easyocr(同类框架还有很多,比如pandaocr)正如它的宣言一样,做更少的事情,完成更多的事情,easyocr应该是最容易上手的ocr模型之一,但是令人感到无奈的是,easyocr貌似只支持图片格式(png,jpg)转文字,所以我们需要事先使用另一个方法将我们准备好的pdf文件转换成图片格式,这里选取的框架是fitz,逻辑可行,开始实践。

这是我的项目结构

将pdf转为图片格式

def trans_pdf(filename):
    pdfPath = 'pdf'  # !
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值