1,安装第三方库文件-PDFMINER3K。
安装方式:
pip install pdfminer3k
2,中文参考文档:
3,数据获取思路:
(1)通过PDF转html,再利用爬虫技术解决,目前来说这方面的技术比较成熟,而且参考很多。
(2)通过PDF转为txt格式,再通过字符提取的方式处理。这样的方式容易理解。
(3)根据PDF读取方式,采用直接读取PDF内容,通过内存管理的方式,实现内部调用读取的数据。
为了保证后续的技术使用方便性,这里采用第三种方式进行处理。
4,读取PDF
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
import re
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
def main(pdf='sdge_bill.pdf'):
with open(pdf, "rb") as