为了完成一个竞赛作品,需要自主开发一个ocr文字识别模型,奈何组内无懂得人工智能的同学,退而求其次之,使用已经存在的框架开发一个能够实现pdf文件转文字的模块。
基于时间和使用难度的考虑,我最后决定使用easyocr(同类框架还有很多,比如pandaocr)正如它的宣言一样,做更少的事情,完成更多的事情,easyocr应该是最容易上手的ocr模型之一,但是令人感到无奈的是,easyocr貌似只支持图片格式(png,jpg)转文字,所以我们需要事先使用另一个方法将我们准备好的pdf文件转换成图片格式,这里选取的框架是fitz,逻辑可行,开始实践。
这是我的项目结构
将pdf转为图片格式
def trans_pdf(filename):
pdfPath = 'pdf' # !

文章描述了一个竞赛项目中使用EasyOCR进行OCR文字识别的过程。由于团队缺乏人工智能知识,选择了易用的EasyOCR库,但该库仅支持图片格式。因此,借助PyMuPDF将PDF转换为图片,然后通过EasyOCR识别图片中的文字。转换过程包括使用fitz打开PDF,调整图像大小和清晰度,保存为PNG图片,最后通过EasyOCR读取和转换图片文字。
最低0.47元/天 解锁文章
819

被折叠的 条评论
为什么被折叠?



