虽然PDF文件对文本布局非常好,容易打印并阅读,但软件要将它们解析为纯文本并不容易,Python目前解析PDF的扩展包有很多。
通过查询资料,建议使用pdfplumber扩展包来解析PDF文档的文本和表格。本文介绍如何通过pdfplumber获取PDF的文本。
一
准备工作
确保安装了以下库:
-
pdfplumber
若没安装,请在命令行使用以下语句进行安装:
pip install pdfplumber
二
pdfplumber
pdfplumber中有两个基础类,PDF和Page。PDF用来处理整个文档,Page用来处理整个页面。
1.1 pdfplumber.PDF类
-
.metadata: 获取pdf基础信息,返回字典
-
pages 一个包含pdfplumber.Page实例的列表,每一个实例代表pdf每一页的信息。
1.2 pdfplumber.Page类
pdfplumber核心功能,对PDF的大部分操作都是基于这个类,包括提取文本、表格、尺寸等。
三
pdfplumber的使用指南
使用 pdfplumber 库解析 PDF 的分步指南。
步骤 1:安装 pdfplumber 库 首先,您需要安装 pdfplumber 库。这可以通过运行以下命令使用 pip 来完成:
pip install pdfplumber
步骤 2:导入库 安