使用Python读取pdf文件

心愿lucky

于 2021-10-27 12:20:10 发布

阅读量2.7w

点赞数 10

分类专栏： Python 文章标签： python pycharm 开发语言

本文链接：https://blog.youkuaiyun.com/u013236891/article/details/120990346

版权

Python 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了如何使用Python的pdfminer3k库来读取和转换PDF文件，特别是针对文本内容。首先，你需要安装这个库，然后导入相关模块。接着，定义一个读取PDF的函数，通过这个函数可以将PDF内容转化为字符串并去除多余的空格。最后，你可以调用这个函数，传入PDF文件路径进行测试。这是一个简单有效的Python PDF处理方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

学习python，不用再为pdf无法转换而烦恼~~~

下面我们介绍python读取pdf文件（主要是针对文字部分）

1、打开环境

2、安装pdfminer3k包

可以使用jupyter notebook进行安装，如下图所示：

安装成功，大功告成第一步。

3、导入相关的包：

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re

如图：

4、定义一个读取pdf文档的函数：

def read_from_pdf(file_path):
"""
读取pdf文件
"""
with open(file_path,'rb') as file:
resource_manager = PDFResourceManager()
return_str = StringIO()
lap_params = LAParams()
device = TextConverter(resource_manager,return_str,laparams=lap_params)
process_pdf(resource_manager,device,file)
device.close()
content = return_str.getvalue()
return_str.close()
return re.sub('\s+','',content)