read pdf by python

最新推荐文章于 2025-07-14 15:28:05 发布

lantianjialiang

最新推荐文章于 2025-07-14 15:28:05 发布

阅读量347

点赞数

CC 4.0 BY-SA版权

分类专栏： Python

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/lantianjialiang/article/details/91843630

Python 专栏收录该内容

25 篇文章

订阅专栏

本文介绍了一段Python代码，该代码使用pdfplumber库从PDF文件中提取表格数据，并将其转换为CSV格式。通过遍历PDF页面并提取表格，代码实现了自动化数据转换，适用于批量处理。了解此代码有助于掌握PDF数据提取技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

import pdfplumber
import re

file_name = "your_fileb.pdf"
path = r"input\\" + file_name
output = open(r"output\\" + file_name.replace("pdf", "csv"), 'w')
pdf = pdfplumber.open(path)

index = 0
for page in pdf.pages:
    index += 1
    print("page ", index)

    #print(page.extract_text())

    for pdf_table in page.extract_tables():
        for row in pdf_table:
            print(",".join(row).replace("\n", " "), file=output)

pdf.close()
output.close()