利用python-docx模块,python可以处理word文档。运行pip install python-docx 可以安装该模块。
需要使用时,载入 import docx
python-docx 完整说明文档 : https://python-docx.readthedocs.io/en/latest/
结构:document对象表示整个文档,包含一个Paragraph对象的列表,表示文档中的段落。
每个Paragragh对象都包含一个Run对象的列表。
需要使用时,载入 import docx
python-docx 完整说明文档 : https://python-docx.readthedocs.io/en/latest/
结构:document对象表示整个文档,包含一个Paragraph对象的列表,表示文档中的段落。
每个Paragragh对象都包含一个Run对象的列表。
一 获取文本。 具体功能实现看如下代码:
## pip install python-docx
import docx
## 从word文档中获取文本
def getText(filename):
doc = docx.Document(filename)
print(len(doc.paragraphs) ) # 返回段落数
print(len(doc.paragraphs[1].runs) ) # 第二个段落的run对象数
print(doc.paragraphs[1].runs[0].text) # 第二个段落中第一个run对象的文本内容
fullText = []
for para in doc.paragraphs:
fullText.append(para.text)
# fullText.append(' ' + para.text) # 实现每段缩进
return '\n'.join(fullText)
# return '\n\n'.join(fullText) # 段落之间增加空行
print(getText('demo.docx'))
二 样式设置。
python-docx 使用样式文档: https://python-docx.readthedocs.o