1.docx 不能解析.doc文档,只能解析.docx文档
2.如何将doc转换为docx (window 里有打开后另存为)
3.docx文档有没有page的概念?如何使用分页符?如何取得第一页和最后一页
1.如何使doc文档,将其转换为docx文档
def dosaveas(self,path):
word = wc.Dispatch('word.application')
#doc 目标路径下的文件
doc = word.Documents.Open(path)
#换换为docx后的目标文件
doc.SaveAs(self.file_path, 12, False, "", True, "", False, False, False, False)
doc.Close()
word.Quit()
2.解析docx文档的首、尾页,返回字符串内容
def parsedocin(self,path):
result = []
if path.endswith(".doc"): #doc文件需要转为docx文件
self.dosaveas(path)
#获取文档对象