之前随便做了一下中金所杯的金融知识大赛的试题,低分飘过。看到复试名单,突然有一个想法,这个是pdf,万一有人想分析一下每个区域的人的分布,那怎么办。
pdf文件大概是这样的。
用的python库是pdfminer,这个库说实话还是有点复杂的,具体使用的时候,还是慢慢调试,print看看能够出来些什么,明白了规律之后再处理。本文作为一个记录。
#!/usr/bin/python
#-*- coding: utf-8 -*-
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PD

这篇博客记录了如何使用Python库pdfminer将PDF文件转换为CSV格式,以进行进一步的数据分析。作者通过调试和理解库的工作原理,解决了从复杂PDF中提取信息的挑战。
最低0.47元/天 解锁文章
653

被折叠的 条评论
为什么被折叠?



