pdfminer将pdf转为csv

最新推荐文章于 2025-09-25 18:27:47 发布

原创

最新推荐文章于 2025-09-25 18:27:47 发布 · 2.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #pdf

这篇博客记录了如何使用Python库pdfminer将PDF文件转换为CSV格式，以进行进一步的数据分析。作者通过调试和理解库的工作原理，解决了从复杂PDF中提取信息的挑战。

之前随便做了一下中金所杯的金融知识大赛的试题，低分飘过。看到复试名单，突然有一个想法，这个是pdf，万一有人想分析一下每个区域的人的分布，那怎么办。

pdf文件大概是这样的。

用的python库是pdfminer，这个库说实话还是有点复杂的，具体使用的时候，还是慢慢调试，print看看能够出来些什么，明白了规律之后再处理。本文作为一个记录。

#!/usr/bin/python
#-*- coding: utf-8 -*-

from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PD