用Python显示和处理PDF文件

最新推荐文章于 2025-09-26 10:36:34 发布

原创

最新推荐文章于 2025-09-26 10:36:34 发布 · 1.4k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文介绍了使用Python库pypdf2、pdfminer.six和pdf2image进行PDF处理的方法，包括获取PDF基本信息、提取文字、转换为图片，以及如何进行批量处理。

pdf是电子书，文档经常会用的格式，除了下载各种阅读器以外，我们也可以用Python批量处理大量PDF文件。本文用到了pypdf2，pdfminer.six，pdf2image来做常规处理。

pypdf2 获取pdf的基本信息，如作者，书名，页数等


  5 from PyPDF2 import PdfFileReader
  6
  7 def extract_information(pdf_path,filename):
  8     try:
  9         with open(pdf_path, 'rb') as f:
 10             pdf = PdfFileReader(f)
 11             information = pdf.getDocumentInfo()
 12             number_of_pages = pdf.getNumPages()
 13