Python办公自动化----PDF文件操作

本文介绍了如何使用Python进行PDF文件操作,包括从PDF中提取文本,旋转和叠加页面,添加空白页,以及加密PDF文件。通过第三方库,可以方便地实现这些功能,例如提取文本为字符串,旋转页面,叠加页面,以及设置PDF的访问口令和添加水印。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

用Python操作PDF文件

PDF是Portable Document Format的缩写,这类文件通常使用.pdf作为其扩展名。

从PDF中提取文本

在Python中,用名为PyPDF2的三方库来读取PDF文件,可以使用下面的命令在终端来安装它。

pip install PyPDF2 -i https://pypi.doubanio.com/simple

PyPDF2没有办法从PDF文档中提取图像、图表或其他媒体,但它可以提取文本,并将其返回为Python字符串。

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf')
page = reader.getPage(0)
print(page.extractText())

网上有很多讲解从PDF中提取文字的文章,《三大神器助力Python提取pdf文档信息》进一步了解。

旋转和叠加页面

上面的代码中通过创建PdfFileReader对象的方式来读取PDF文档,该对象的getPage方法可以获得PDF文档的指定页并得到一个Page对象,利用Page对象的rotateClockwiserotateCounterClockwise方法可以实现页面的顺时针和逆时针方向旋转,代码如下所示。

import PyPDF2

reader = PyPDF2.PdfFileReader('test.pdf')
page = reader.getPage(0)
page.rotateClockwise(90)
writer = PyPDF2.PdfFileWriter()
writer.addPage(page)
with open('test-rotated.pdf', 'wb') as file:
    writer.write(file)

Page对象还有一个名为mergePage的方法,可以将一个页面和另一个页面进行叠加,对于叠加后的页面,使用PdfFileWriter对象的addPage将其添加到一个新的PDF文档中。

添加空白页

                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值