PDF 和 Word 文档是二进制文件。
1. PDF 文档
PDF表示Portable Document Format(可移植文档格式),使用.pdf文件扩展名。用于处理PDF的模块是PyPDF2,这个模块是区分大小写的。
1) 从 PDF 提取文本
PyPDF2无法从PDF文档中提取图像,表格或其他媒体,但是可以提取文本。提取过程如下:
a) 以“rb”模式打开PDF文件。
b) 创建PdfFileReader对象。
c) 获取Paged对象。
d) 使用extractText()返回文本的字符串。
示例:
>>> import PyPDF2
>>> pdfFileObj =open('meetingminutes.pdf','rb')
>>> pdfReader =PyPDF2.PdfFileReader(pdfFileObj)
>>> pdfReader.numPages
19
>>> pageObj = pdfReader.getPage(0)
>>> pageObj.extractText()
'OOFFFFIICCIIAALL BBOOAARRDD MMIINNUUTTEESS Meeting of\nMarch 7\n, 2014\n \n The Board of Elementary and SecondaryEducation shall provide leadership and \ncreate policies for education thatexpand opportunities

本文介绍了如何使用Python的PyPDF2库处理PDF文档,包括提取文本、解密、创建PDF、拷贝页面、旋转页面、叠加页面和加密PDF等操作。PyPDF2提供了解析和操作PDF文件的功能,但不支持图像和表格的提取。
最低0.47元/天 解锁文章
1305

被折叠的 条评论
为什么被折叠?



