首先下载第三方库python-docx: pip install python-docx(在py文件里面导入的时候是import docx)
简单的说,docx里面的每一个段落都是一个paragraph对象,段落中文本如果有不同的样式(加粗,斜体)就会有不同的run对象,而且paragraph和run对象都有一个text属性,表示的是他包含的文本
import docx
def getText(filename):
doc = docx.Document(filename)
fullText = []
for i in doc.paragraphs:#迭代docx文档里面的每一个段落
fullText.append(i.text)#保存每一个段落的文本
return '\n'.join(fullText)
def main():
print getText('reviews.docx')#reviews.docx是我自己创建的一个文档,注意要和你的py文件一个目录下
if __name__=="__main__":
main()
reviews.docx文件下载:https://pan.baidu.com/s/1pMEXSLl
本文介绍了一种使用python-docx库从DOCX文件中提取文本的方法。通过定义getText函数,该函数接受一个文件名参数,并返回文档中所有段落的文本。此方法适用于批量处理Word文档。
545

被折叠的 条评论
为什么被折叠?



