下载poppler-0.45,使用pdftohtml.exe 命令
def pdftoXml(filename):
pdfpath = 'F:/testFiles/pdfFiles/'+filename+'.pdf'resultpath = 'F:/testFiles/resuleFiles/'+filename+'.xml'
os.system('E:/poppler-0.45_x86/poppler-0.45/bin/pdftohtml.exe %s -i -xml %s' % (pdfpath,resultpath))
本文介绍了一种使用poppler工具包中的pdftohtml.exe将PDF文件转换为XML格式的方法。通过定义一个名为pdftoXml的函数,该函数接收文件名作为参数,并指定源PDF文件及目标XML文件的位置。
264





