python获取docx文档的内容(文本)

最新推荐文章于 2025-10-10 18:37:49 发布

原创最新推荐文章于 2025-10-10 18:37:49 发布 · 8.8k 阅读

11 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

51 篇文章

订阅专栏

本文介绍了一种使用python-docx库从DOCX文件中提取文本的方法。通过定义getText函数，该函数接受一个文件名参数，并返回文档中所有段落的文本。此方法适用于批量处理Word文档。

首先下载第三方库python-docx: pip install python-docx(在py文件里面导入的时候是import docx)

简单的说,docx里面的每一个段落都是一个paragraph对象,段落中文本如果有不同的样式(加粗，斜体)就会有不同的run对象,而且paragraph和run对象都有一个text属性，表示的是他包含的文本

import docx

def     getText(filename):

        doc = docx.Document(filename)
        fullText = []
        for i in doc.paragraphs:#迭代docx文档里面的每一个段落
            fullText.append(i.text)#保存每一个段落的文本
        return '\n'.join(fullText)
def     main():

        print getText('reviews.docx')#reviews.docx是我自己创建的一个文档,注意要和你的py文件一个目录下

if     __name__=="__main__":
        main()