使用Python轻松批量读取Word文档及各种Word元素的文字内容

原创

已于 2025-04-14 14:39:12 修改 · 1.7w 阅读

118 ·

CC 4.0 BY-SA版权

文章标签：

#开发语言 #python

于 2024-03-29 13:55:39 首次发布

本文详细介绍了如何利用Python和Spire.DocforPython库，实现从Word文档中批量读取文字内容，包括整篇文档、特定节、段落、页面、表格以及页眉页脚，提供示例代码帮助读者快速掌握。

引言

安装Python Word库

使用 Python 批量读取Word文档的文字内容

使用 Python 读取Word文档特定节的文字内容

使用 Python 读取Word文档特定段落的文字内容

使用 Python 读取Word文档特定页面的文字内容

使用 Python 读取Word文档特定行的文字内容

使用 Python 读取Word文档特定表格的文字内容

使用 Python 读取Word文档页眉和页脚的文字内容

引言

在现代办公环境中，Word文档是一种常见的文件格式，广泛用于书写、编辑和共享各种类型的文本内容。有时候，我们需要从Word文档中提取文字内容，以便进行进一步的处理和分析。通过编程的方式实现这一功能可以极大地提高工作效率，尤其是当需要处理大量文档或进行批量操作时。

这篇博客将探讨如何使用Python从整个Word文档及各种Word元素中读取文字内容：

使用 Python 批量读取Word文档的文字内容
使用 Python 读取Word文档特定节的文字内容
使用 Python 读取Word文档特定段落的文字内容
使用 Python 读取Word文档特定页面的文字内容
使用 Python 读取Word文档特定行的文字内容
使用 Python 读取Word文档特定表格的文字内容
使用 Python 读取Word文档页眉和页脚的文字内容

安装Python Word库

在Python中，我们可以使用Spire.Doc for Python库来读取Word文档的内容。

Spire.Doc for Python主要用于在Python应用程序中创建、读取、编辑和转换Word文件。它可以处理各种Word格式，包括Doc、Docx、Docm、Dot、Dotx、Dotm等。此外，还可以将Word文档转换为其他类型的文件格式，如Word转PDF、Word转RTF、Word转HTML、Word转文本、Word转图片、Word转OFD/XPS/PostScript。

你可以通过在终端运行以下命令来从PyPI安装Spire.Doc for Python：

pip install Spire.Doc

使用 Python 批量读取Word文档的文字内容

从整个Word文档中提取文本很简单，只需使用Document.GetText()方法。具体步骤如下：

创建Document实例并使用Document.LoadFromFile()方法加载Word文档。
使用Document.GetText()方法获取该Word文档的文字内容。
将获取的文字内容写入文本文件。

from spire.doc import *
from spire.doc.common import *

# 创建Document实例
document = Document()
# 加载Word文档
document.LoadFromFile("测试.docx")

# 获取文档的文本内容
document_text = document.GetText()

# 将获取的文本内容保存到文本文件
with open("文档文字.txt", "w", encoding="utf-8") as file:
    file.w