《Python 编程快速上手 — 让繁琐工作自动化》读书笔记之【第13章处理PDF和Word文档(1)】

最新推荐文章于 2024-12-17 17:33:28 发布

原创

最新推荐文章于 2024-12-17 17:33:28 发布 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #PDF

本文介绍了如何使用Python的PyPDF2库处理PDF文档，包括提取文本、解密、创建PDF、拷贝页面、旋转页面、叠加页面和加密PDF等操作。PyPDF2提供了解析和操作PDF文件的功能，但不支持图像和表格的提取。

PDF 和 Word 文档是二进制文件。

1. PDF 文档

PDF表示Portable Document Format(可移植文档格式)，使用.pdf文件扩展名。用于处理PDF的模块是PyPDF2，这个模块是区分大小写的。

1) 从 PDF 提取文本

PyPDF2无法从PDF文档中提取图像，表格或其他媒体，但是可以提取文本。提取过程如下：

a) 以“rb”模式打开PDF文件。

b) 创建PdfFileReader对象。

c) 获取Paged对象。

d) 使用extractText()返回文本的字符串。

示例：

>>> import PyPDF2

>>> pdfFileObj =open('meetingminutes.pdf','rb')

>>> pdfReader =PyPDF2.PdfFileReader(pdfFileObj)

>>> pdfReader.numPages

19

>>> pageObj = pdfReader.getPage(0)

>>> pageObj.extractText()

'OOFFFFIICCIIAALL  BBOOAARRDD MMIINNUUTTEESS   Meeting of\nMarch 7\n, 2014\n        \n     The Board of Elementary and SecondaryEducation shall provide leadership and \ncreate policies for education thatexpand opportunities