这篇文章教会我用 Python 读取 PDF 文件【收藏即会】

最新推荐文章于 2025-06-06 17:32:40 发布

梦想橡皮擦

最新推荐文章于 2025-06-06 17:32:40 发布

阅读量2.2w

点赞数 9

分类专栏：精彩技术文文章标签： python 开发语言后端 python爬虫 pip

精彩技术文专栏收录该内容

254 篇文章

订阅专栏

文章目录

- ⛳️ 实战场景
- ⛳️ Python PDF 实战编码

⛳️ 实战场景

Python 工程师在日常的工作中，经常会碰到解析和处理PDF文件的情况，实战中需求主要分为如下情况：

提取 PDF 中的文字
将 PDF 中每页转换为图片
word 转换为PDF
PDF生成，编辑，导入导出
PDF在线渲染

除了最后一项需要前端配合以外，其余内容都可以直接在 python 端进行实现。

本次实战选择 pdfplumber 库进行学习，可以提前安装该库，不过有一点需要注意，该库主要用于读取 PDF 进行操作，写入和编辑无法实现，即本文学习一款专注于 PDF 内容提取的库。

> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple

pdfplumber 库具备如下特点：

可以访问PDF对象中的任意元素详细信息；
可以提取文本和表格，而且用法简单；
集成了可视化调试。

⛳️ Python PDF 实战编码

下面可以编写 PDF 操作的基础代码。

import pdfplumber

with pdfplumber.open('./dddd.pdf') as pdf:
    for page in pdf.pages:
        print(page.extract_text())

        # 每页打印一分页分隔
        print('---------- 分页分隔 ----------')

导入 pdfplumber 模块之后，使用 pdfplumber.open('./dddd.pdf') 打开本地 pdf 文件，然后通过 pdf.pages 遍历所有页，在通过页对象的 .extract_text() 方法，提取文本信息。

pdfplumber.open() 方法的签名如下所示：

pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })

其中各参数描述如下：

file_name：文件名，必选参数；
password：PDF的密码；
laparams：布局参数。

除此之外，如果希望读取 PDF，还可以使用 load() 方法，该方法也会返回 pdfplumber.PDF 类的实例。

pdfplumber.PDF 对象实例，主要有两个重要属性：

.metadata：从PDF的Info中获取元数据键 /值对字典。通常包括“ CreationDate”，“ ModDate”，“ Producer”等；
.pages：包含 pdfplumber.Page 实例的列表，每一个实例代表PDF每一页的信息。

上文提及的 pdfplumber.Page 实例是 pdfplumber 的核心，后续对 PDF 的操作大量围绕该类的属性和方法实施，其重要属性如下所示：

page_number：页码顺序，第一页的序号是 1；
witdh：宽度；
height：高度；
.objects/.chars/.lines/.rects/.curves/.figures/.images：获取PDF页中的重要数据。

核心方法如下所示：

extract_text()：提取页中的文本；
extract_words()：提取所有单词及其相关信息；
extract_tables()：提取页面的表格。

extract_text() 呈现结果

extract_words() 呈现结果

extract_tables() 呈现效果，由于 PDF 中无表格，所有每页得到的都是空！

📢📢📢📢📢📢
💗 你正在阅读 【梦想橡皮擦】 的博客
👍 阅读完毕，可以点点小手赞一下
🌻 发现错误，直接评论区中指正吧
📆 橡皮擦的第 716 篇原创博客

从订购之日起，案例5年内保证更新