提取PDF每一页，所有表格，并按页码命名保存

最新推荐文章于 2025-03-05 13:56:57 发布

原创最新推荐文章于 2025-03-05 13:56:57 发布 · 819 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python

python制作生活小工具专栏收录该内容

15 篇文章

订阅专栏

该博客展示了如何利用python的pdfplumber库从标准格式的PDF中提取表格，并将它们转换为Excel文件保存。代码逐页遍历PDF，对每页的表格进行提取并保存为单独的Excel文件，但不适用于扫描版PDF。博客强调了pdfplumber在处理表格提取上的实用性。

本文代码有效提取标准格式的PDF表格，比如，一页有三个五个这种样式。提取后文件按照页码和表格编号顺序命名保存，（扫描版PDF无法提取）
在这里插入图片描述

import pdfplumber
import pandas as pd
import openpyxl


with pdfplumber.open("4-51（工程）.pdf") as pdf:
    #first_page = pdf.pages
   
    for i in range(len(pdf.pages)):
    #for i in range(10):    
        try:
            n=0
        
            for table in pdf.pages[i].extract_tables():
                n+=1
                #得到的table是嵌套list类型，转化成DataFrame更加方便查看和分析 
                df = pd.DataFrame(table[1:], columns=table[0])
                print(df)              
            
                df.to_excel(str(i+1)+'页'+str(n)+ '号表格.xlsx')
                    
                    

                #df.to_excel('工程.xlsx', sheet_name=str(i))
        except Exception as e:
            print('此页无表')