Python基于easyocr和fitz实现的pdf转文字

原创

已于 2023-03-25 23:20:53 修改 · 2.1k 阅读

18 ·

CC 4.0 BY-SA版权

文章标签：

#pdf #人工智能

于 2023-03-25 23:19:17 首次发布

文章描述了一个竞赛项目中使用EasyOCR进行OCR文字识别的过程。由于团队缺乏人工智能知识，选择了易用的EasyOCR库，但该库仅支持图片格式。因此，借助PyMuPDF将PDF转换为图片，然后通过EasyOCR识别图片中的文字。转换过程包括使用fitz打开PDF，调整图像大小和清晰度，保存为PNG图片，最后通过EasyOCR读取和转换图片文字。

为了完成一个竞赛作品，需要自主开发一个ocr文字识别模型，奈何组内无懂得人工智能的同学，退而求其次之，使用已经存在的框架开发一个能够实现pdf文件转文字的模块。

基于时间和使用难度的考虑，我最后决定使用easyocr（同类框架还有很多，比如pandaocr）正如它的宣言一样，做更少的事情，完成更多的事情，easyocr应该是最容易上手的ocr模型之一，但是令人感到无奈的是，easyocr貌似只支持图片格式（png，jpg）转文字，所以我们需要事先使用另一个方法将我们准备好的pdf文件转换成图片格式，这里选取的框架是fitz，逻辑可行，开始实践。

这是我的项目结构

将pdf转为图片格式

def trans_pdf(filename):
    pdfPath = 'pdf'  # ！

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

刘小帅574

关注关注

5
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

《第六篇》基于RapidOCR与LangChain的PDF图文内容解析器开发

guoguozgw的博客

06-30

819

RapidOCRPDFLoader是一个基于LangChain的自定义PDF加载器，结合OCR技术提取PDF中的文本和图像内容。它继承自UnstructuredFileLoader，通过fitz(pyMuPDF)解析PDF文件：1) 直接提取文本内容；2) 使用RapidOCR识别图像中的文字。处理过程包含进度条显示(tqdm)和分页处理，最终通过partition_text将结果结构化输出。配套的get_ocr函数智能选择OCR引擎(优先PaddleOCR，回退ONNX Runtime)。该方案适用于需要

Python中的PDF文本提取：使用fitz和wxPython库（带进度条）

Winfredzhang的博客

08-05

3013

处理大量PDF文档的文本提取任务可能是一项繁琐的工作。本文将介绍一个使用Python编写的工具，可通过简单的操作一键提取大量PDF文档中的文本内容，极大地提高工作效率。请注意，由于提取过程可能需要一些时间，所以我们使用进度条对话框来显示进度并阻止用户的交互。在提取完成后，进度条对话框会自动关闭。函数获取当前页的索引，并根据总页数计算提取进度的百分比。对象，用于显示提取进度。在提取每一页的文本时，我们使用。方法更新进度条的进度和显示的文本。在这个示例中，我们创建了一个。

参与评论您还未登录，请先登录后发表或查看评论

2021-07-29 使用python将pdf转图片、在图片上进行标注

XiTTin_的博客

07-29

974

针对python基础的学习停止了接近一周，主要是因为三天的团建和一项新的实习小任务，任务虽小但是对于新手来说着实有点难度，在反复订正和修改之后最终成功实现了要求。以下是一些值得记录的工作笔记、学习心得。一、pdf文件转图片 import fitz def zoom_method(ori_dir, prefix, src): doc = fitz.open(ori_dir) page = doc[0] zoom_x = 2.75 zoom_y = 2.75

Python识别PDF扫描版PDF纯图PDF，OCR提取汉字的10大方法，力推RapidOCRPDF 可识别纯图PDF 加密签名的PDF 重点是开源免费，某些方面准确度比百度OCR高

朴拙科技的博客

05-24

6908

pdf的roc图片识别并写入word

qq_44256320的博客

10-11

472

pdf进行roc图片识别并写入word 背景女朋友考研，有一本专业课的电子版书籍，还有一个知识点手册，她需要根据知识点手册的重点词汇来找的该内容在电子版书籍的哪一页，或者是在哪一块前提 1.安装 pytesseract库，fitz库 2.下载tesseract.exe 首先我将pdf中的图片一个一个存入某个文件夹，这里应用了fitz库进行pdf的图片提取，代码如下： import fitz import re import os def pdf2pic(path, pic_path): ''

使用 EasyOCR 识别 PDF 中的文字

huachangzai的博客

08-16

1130

在读取PDF上文字的时候，发现有些pdf是图片格式的，常规的pdf库是提取不到的。因此考虑使用OCR进行提取。

基于Python的离线OCR图片文字识别（三）——支持PDF文件

u013600870的专栏

08-01

2437

离线OCR 支持图像类型PDF文件支持文件夹

Python程序把pdf图片转为文字

最新发布

06-19

我们正在处理用户的问题：如何使用Python将PDF中的图片转换为文字。用户希望使用OCR技术来识别PDF中的图片文字。根据引用内容，用户已经提供了一段代码，该代码使用了paddleocr库，并且包含了一个将PDF转换为图片的...

输出python代码，输入一个pdf的stream，使用fitz读取该矢量pdf，输出该矢量pdf中每个单字的坐标（单字为单独的char）

03-11

好的，用户的问题是想要用Python的Fitz库来读取PDF流，并提取其中每个字符的坐标。我需要先回顾一下Fitz库的相关知识，特别是关于文本和字符提取的部分。首先，Fitz是PyMuPDF的一个模块，它提供了处理PDF文件的...

【集成与部署】：Python EasyOCR最佳集成实践与系统兼容性指南

Python EasyOCR是一个强大的开源光学字符识别(OCR)库，它能够让我们轻松地将文字识别功能集成到各种Python项目中。EasyOCR 不仅支持多种语言的文字识别，而且操作简便，易于集成，极大地降低了OCR技术

python | easyocr，一个超厉害的关于OCR的 Python 库！

csdn_xmj的博客

07-24

3959

EasyOCR库是一个功能强大且易于使用的 OCR 工具，能够帮助开发者在各种应用场景中高效地提取图片中的文字。通过支持多语言、高效识别、手写文字识别和自定义模型，EasyOCR提供了强大的功能和灵活的扩展能力。本文详细介绍了EasyOCR库的安装方法、主要特性、基本和高级功能，以及实际应用场景。希望本文能帮助大家全面掌握EasyOCR库的使用，并在实际项目中发挥其优势。无论是在文档数字化、数据录入自动化还是图像文字翻译中，EasyOCR库都将是一个得力的工具。

easyocr 1.4.1 python 3.9 windows（csdn）————程序.pdf

12-01

easyocr 1.4.1 python 3.9 windows（csdn）————程序

使用easyocr、PyPDF2对图像及PDF文档进行识别

weixin_69327572的博客

03-04

1373

本 Python 脚本的主要功能是对当前目录及其子目录下的图片和 PDF 文件进行光学字符识别（OCR）处理。它使用easyocr库处理图片中的文字，使用PyPDF2库提取 PDF 文件中的文本，并将处理结果保存为文本文件。同时，脚本会记录详细的处理日志，方便用户跟踪处理过程和排查问题。

Python中图片与PDF识别文本(OCR)的全面指南：方法与实战

专注于与编程相关的知识内容分享

06-16

2876

在数据爆炸时代，80%的企业数据以非结构化形式存在，其中PDF和图像是最主要的载体。本文将深入探索Python中OCR技术如何将这些"数字纸张"转化为可分析的结构化文本

python ocr识别库_轻松识别文字，这款Python OCR库支持超过80种语言

热门推荐

weixin_42300317的博客

01-28

3万+

OCR是什么？有一款软件叫扫描全能王，想必一些小伙伴听过，这是一个OCR集成软件，可以将图像内容扫描成文字。所以说，OCR作用是对文本资料的图像文件进行分析识别处理，获取文字及版面信息。OCR的全称叫作“Optical Character Recognition”，即光学字符识别。这算是生活里最常见、最有用的AI应用技术之一。细心观察便可发现，身边到处都是OCR的身影，文档扫描、车牌识别、证...

利用Python实现PDF文档中文本提取与图像OCR处理的完整指南

qq_43580271的博客

05-10

6978

当处理文档时，有时候我们需要提取其中的文本信息。这可能是为了进行文本分析、搜索、或者其他各种自动化处理。在这篇博客中，我们将介绍如何使用 Python 中的几个库来实现 PDF 文档中文本的提取，以及如何利用 OCR 技术处理图像中的文本信息。

使用 EasyOCR 从图像中检测文本：实践指南

深度学习与计算机视觉

09-14

3692

什么是 OCR？OCR 的前身是光学字符识别，它对当今的数字世界具有革命性意义。OCR 实际上是一个完整的过程，在此过程中，数字世界中存在的图像/文档被处理，文本被处理成普通的可编辑文本。...

EASYOCR：一款简单而准确的Python光学字符识别库

Warmer_Sweeter

12-15

1698

OCR代表光学字符识别，指的是用于将扫描的图像、PDF或其他文档转换为可编辑和可搜索的文本文件的技术。通过OCR，从文档中捕捉字符和文本，将其转换为数字格式，然后转换为可编辑的文档，如可以编辑、搜索和共享的文字处理文件。OCR的工作原理：OCR过程始于将文档扫描成数字图像。一旦文档数字化，OCR软件会分析图像并识别每个字符或符号，如字母、数字和标点符号。这个过程是通过机器学习算法和模式识别技术来实...

深度学习（9）之 easyOCR使用详解

yohnyang的博客

04-22

2万+

python-easyOCR之字符识别