实际上ofd
、docx
、xlsx
等文件就是一个压缩文件,是可以被解压处理的。所以我们把一个ofd
格式的发票文件解压后就可以看到它的目录,如下:
再用谷歌或者IE
打开里面的xml
属性的文件,就可以看到发票相关信息,如下:
所以获取发票信息的实现方法大致就是:先解压ofd
格式文件,得到里面的OFD.xml
文件,在通过解析xml
文件获取到发票相关信息
解析xml文件
from xml.dom.minidom import parse
def get_info(dir_path, unzip_file_path=None, removed=True):
"""
:para