【python-docx】Python读写Word文件

python-docx是一个在Python环境下读写word文档的“利器”。在使用前可以通过 pip install python-docx 命令安装,再通过import docx 引用即可。下面简单介绍一下 python-docx 的基本操作。

1、新建/打开及保存

文档的新建和打开比较简单,只需要用docx的Document类,若指定路径则是打开文档;若没有指定路径则是新建文档。

对文档的操作结束后可以通过Document类的save方法进行保存,其中参数是保存的文件路径,或者要保存的文件流。一般指定路径即可。

doc = docx.Document('D:\project\python\docx\test.docx') #打开文档
doc_new = docx.Document()  #新建文档

doc.save()  #保存
doc_new.save('D:\project\python\docx\1.docx')  #保存

2. 对象操作

python-docx包含了word文档的相关对象集合,如段落(doc.paragraphs)、表格(doc.tables)、节(doc.sections)、样式(doc.styles)、内置图形(doc.inline_shapes)等等。我们可以通过这些对象集合进行信息读取。在这里我主要说一下段落和表格的操作吧。

2.1 doc.paragraphs

在docx中,可以通过 doc.paragraphs 访问word中的段落信息。

我们通过 print(doc.paragraphs) 和 print(type(doc.paragraphs))  可以知道,doc.paragraphs给出的是一个包含paragraph对象的list。我们可以通过 len(doc.paragraphs)  查看段落的数量。

print(doc.paragraphs)
print(type(doc.paragraphs)) #<class 'list'>
print(len(doc.paragraphs)) #9

如果想访问文档的具体内容,可以通过遍历的方式,利用 doc.paragraphs.text 的命令来读取,也可以通过制定的下标访问制定段落。

for i in doc.paragraphs:  #遍历全部段落
    print(i.text)    #提取段落内容

print(doc.paragraphs[1]) #访问具体段落

 不过,上述方式仅仅是获得了文字内容,而把格式全忽略了。比如加粗、颜

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值