pdf转excel Python代码

本文介绍了如何使用Python从PDF文件中提取表格数据并转换为Excel格式,提供了实战案例供参考。
import pandas as pd
import pdfplumber
import datetime as dt
print(dt.datetime.now().strftime('%Y-%m-%d %H:%M:%S')+"开始")
pdf = pdfplumber.open(
### 将PDF文件换为Excel文件 为了实现从PDFExcel换,可以采用第三方库`PyMuPDF`(也称为`fitz`)以及`pandas`来处理数据。以下是具体方法: 对于PDF文档中的表格提取并存至Excel的操作,首先需要解析PDF页面内容,识别其中结构化信息即表格部分,再将这些信息按照一定格式写入Excel。 #### 安装所需依赖包 在命令提示符下执行如下指令完成环境准备: ```bash pip install pymupdf pandas openpyxl ``` #### PDFExcel的核心代码片段 下面给出一段简单的Python脚本用于演示此过程[^1]: ```python import fitz # PyMuPDF import pandas as pd def pdf_to_excel(pdf_file, excel_file): doc = fitz.open(pdf_file) all_dataframes = [] for page_num in range(len(doc)): page = doc.load_page(page_num) text = page.get_text("dict")["blocks"] table_list = [] for block in text: if 'lines' in block and isinstance(block['lines'], list): rows = [[span['text'] for span in line['spans']] for line in block['lines']] table_list.extend(rows) df = pd.DataFrame(table_list) all_dataframes.append(df) writer = pd.ExcelWriter(excel_file, engine='openpyxl') for i, dataframe in enumerate(all_dataframes): sheet_name = f'Sheet{i+1}' dataframe.to_excel(writer, sheet_name=sheet_name, index=False) writer.save() writer.close() if __name__ == "__main__": input_pdf = "example.pdf" output_excel = "output.xlsx" pdf_to_excel(input_pdf, output_excel) ``` 这段程序会遍历给定PDF文件内的每一页,尝试从中抽取可能存在的表格形式的数据,并将其存储在一个Pandas DataFrame对象里;最后把这些DataFrame依次写入同一个Excel工作簿的不同Sheet页中[^2]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值