python之office_word相关操作

python无法处理.doc文件,所以先将.doc文件转化为.docx文件,再处理.docx

一、.doc转化为.docx、.pdf、.txt……

python无法处理.doc文件,但可以处理.docx文件,先将.doc转为.docx

from win32com import client as wc
 
#word = wc.Dispatch("Word.Application")
#启动独立的进程,推荐这种
word = wc.DispatchEx("Word.Application")
 
# 后台运行,不显示,不警告
w.Visible = False
w.DisplayAlerts = 0
 
doc = word.Documents.Open(r'D:\Projects\CA\script\CA0218748520031015-DNAv01.DOC')
doc.SaveAs(r'D:\Projects\CA\script\CA0218748520031015-DNAv01.docx', 12, False, '', True, '', False, False, False, False)  #12为docx
doc.Close()
word.Quit()

若将参数“12”换成“2”,就可将.doc转成.txt

根据参数设置可以将word文件转换成任意格式文件

wdFormatDocument0
wdFormatDocument970
wdFormatTemplate1
wdFormatTemplate971
wdFormatText2
wdFormatTextLineBreaks3
wdFormatDOSText4
wdFormatDOSTextLineBreaks5
wdFormatRTF6
wdFormatEncodedText7
wdFormatUnicodeText7
wdFormatHTML8
wdFormatWebArchive9
wdFormatFilteredHTML10
wdFormatXML11
wdFormatXMLDocument12
wdFormatXMLDocumentMacroEnabled13
wdFormatXMLTemplate14
wdFormatXMLTemplateMacroEnabled15
wdFormatDocumentDefault16
wdFormatPDF17
wdFormatXPS18
wdFormatFlatXML19
wdFormatFlatXMLMacroEnabled20
wdFormatFlatXMLTemplate21
wdFormatFlatXMLTemplateMacroEnabled22

word文件转html有两种格式可选wdFormatHTML、wdFormatFilteredHTML(对应数字8、10),区别是如果是wdFormatHTML格式的话,word文件里面的公式等ole对象将会存储成wmf格式,而选用wdFormatFilteredHTML的话公式图片将存储为gif格式,而且目测可以看出用wdFormatFilteredHTML生成的HTML明显比wdFormatHTML要干净许多。

二、读取.docx

  
#读取.docx
import docx
 
#获取文档对象
file=docx.Document(r'D:\Projects\CA\script\CA0218748520031015-DNAv01.docx')
print("段落数:"+str(len(file.paragraphs)))
 
#输出每一段的内容
for para in file.paragraphs:
    print(para.text)
 
#输出段落编号及段落内容
for i in range(len(file.paragraphs)):
    print("第"+str(i)+"段的内容是:"+file.paragraphs[i].text)

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值