Python操作PDF
一、PDF简介
PDF是Portable Document Format的缩写,这类文件通常使用.pdf
作为其扩展名。在日常开发工作中,最容易遇到的就是从PDF中读取文本内容以及用已有的内容生成PDF文档这两个任务。
在Python中,可以使用名为PyPDF2
的三方库来读取PDF文件,可以使用下面的命令来安装它。
安装最新版本
pip install PyPDF2
安装指定版本
pip install PyPDF2==2.3.1
二、从PDF中提取文本和加密PDF文件
2.1 提取文本
PyPDF2
没有办法从PDF文档中提取图像、图表或其他媒体,但它可以提取文本,并将其返回为Python字符串。
- 导入包
import PyPDF2
- 创建读取文件的对象
reader = PyPDF2.PdfReader(r"data/XGBoost.pdf")
- 获取指定页,结果返回一个字典
page = reader.pages[0]
print(page)
- 获取指定页的文本内容
text = page.extract_text()
print(text)
2.2 加密pdf文件
使用PyPDF2
中的PdfWrite
对象可以为PDF文档加密,如果需要给一系列的PDF文档设置统一的访问口令,使用Python程序来处理就会非常的方便。
加密pdf文件会创建新的对象
- 导入包
import PyPDF2
- 创建读取文件的对象
reader = PyPDF2.PdfReader(r"data/XGBoost.pdf")
- 创建写入文件的对象
writer = PyPDF2.PdfWrite