Python pyparsing库：一款灵活文本解析工具

最新推荐文章于 2025-10-12 14:09:53 发布

原创最新推荐文章于 2025-10-12 14:09:53 发布 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言

部署运行你感兴趣的模型镜像

更多Python学习内容：ipengtao.com

在文本处理和数据解析中，我们经常需要对复杂的文本进行结构化解析，比如从日志中提取关键信息，解析配置文件，或者处理自定义的领域特定语言（DSL）。尽管正则表达式可以胜任部分任务，但它们常常难以维护且不够直观。而 pyparsing 是一个更高级的解析工具，提供了模块化、易于理解的方式来定义和解析复杂的文本结构。pyparsing 允许开发者通过 Python 的语法定义解析规则，使得规则的编写更加清晰和易于调试。

安装

要使用 pyparsing，可以通过以下命令安装：

pip install pyparsing

安装完成后，可以通过以下代码验证是否安装成功：

import pyparsing
print(pyparsing.__version__)

确认安装成功后，您就可以开始使用 pyparsing 进行文本解析了。

主要功能

pyparsing 的核心功能是提供灵活的解析规则定义和工具。

以下是它的一些主要特点：

模块化的解析规则定义
清晰的语法，支持嵌套结构
自动忽略空白和无用字符
丰富的内置解析器，例如数字、字符串、标点符号等
支持自定义解析逻辑和回调处理

这些功能使得 pyparsing 成为处理复杂文本解析任务的强大工具。

基础用法

定义简单的解析规则

使用 pyparsing 的第一步是定义解析规则。

以下是一个简单示例，解析包含姓名和年龄的字符串：

from pyparsing import Word, alphas, nums

# 定义解析规则
name = Word(alphas)
age = Word(nums)
parser = name + age

# 测试解析器
result = parser.parse_string("Alice 30")
print(result.as_list())

在这个示例中，Word(alphas) 匹配字母组成的单词，Word(nums) 匹配数字。解析器通过 + 操作符组合这些规则，用于匹配“姓名 + 空格 + 年龄”的结构。

解析带有分隔符的字符串

pyparsing 支持解析带有分隔符的文本，例如 CSV 数据。

以下是解析逗号分隔字符串的示例：

from pyparsing import Word, alphas, nums, delimited_list

# 定义解析规则
name = Word(alphas)
age = Word(nums)
fields = delimited_list(name | age)

# 测试解析器
result = fields.parse_string("Alice,30,Bob,25")
print(result.as_list())

在这个示例中，delimited_list 用于定义逗号分隔的规则，可以轻松解析多个字段的数据。

处理重复结构

pyparsing 提供了 OneOrMore 和 ZeroOrMore 方法，用于匹配重复的文本结构。

以下示例展示了如何解析由多个数字组成的字符串：

from pyparsing import Word, nums, OneOrMore

# 定义解析规则
numbers = OneOrMore(Word(nums))

# 测试解析器
result = numbers.parse_string("123 456 789")
print(result.as_list())

OneOrMore 要求至少匹配一次，而 ZeroOrMore 则允许匹配零次或多次。

进阶用法

嵌套结构解析

pyparsing 非常适合解析嵌套结构，例如括号表达式。

以下示例展示了如何解析带有嵌套括号的数学表达式：

from pyparsing import Word, nums, Literal, Forward, Group

# 定义解析规则
number = Word(nums)
lpar = Literal("(").suppress()
rpar = Literal(")").suppress()
expr = Forward()
nested_expr = Group(lpar + expr + rpar)
expr <<= number | nested_expr

# 测试解析器
result = expr.parse_string("(123 (456 789))")
print(result.as_list())

在这个示例中，Forward 用于递归定义规则，而 Group 将嵌套的结构解析为单独的组。

自定义解析回调

pyparsing 支持在解析时调用自定义回调函数，便于对解析结果进行处理。

例如，可以将解析的字符串直接转换为整数：

from pyparsing import Word, nums

# 自定义回调函数
def convert_to_int(tokens):
    return int(tokens[0])

# 定义解析规则
number = Word(nums).set_parse_action(convert_to_int)

# 测试解析器
result = number.parse_string("123")
print(result[0])

set_parse_action 方法用于为解析器绑定回调函数，这在需要对解析结果进行格式化时非常有用。

解析复杂的DSL

以下是一个解析自定义配置语言的示例，该语言的格式为“键=值”：

from pyparsing import Word, alphas, alphanums, Literal, Suppress, Dict

# 定义解析规则
key = Word(alphas)
value = Word(alphanums)
equals = Suppress(Literal("="))
pair = key + equals + value
config = Dict(pair)

# 测试解析器
result = config.parse_string("username=admin password=1234")
print(result.as_dict())

在这个示例中，Dict 将解析结果转换为字典格式，便于访问键值对。

实际应用

解析日志文件

日志文件通常包含大量结构化数据，例如时间戳、日志级别和消息。

以下示例展示了如何解析简单的日志文件：

from pyparsing import Word, alphas, nums, Suppress

# 定义解析规则
time = Word(nums + ":")
level = Word(alphas)
message = Word(alphas + " ")
log_entry = time + Suppress("-") + level + Suppress(":") + message

# 测试解析器
log_data = "12:00 - INFO: Server started"
result = log_entry.parse_string(log_data)
print(result.as_list())

解析数学表达式

以下是一个解析简单数学表达式的示例：

from pyparsing import Word, nums, Literal, infix_notation, opAssoc

# 定义解析规则
number = Word(nums)
plus = Literal("+")
minus = Literal("-")
expr = infix_notation(
    number,
    [
        (plus, 2, opAssoc.LEFT),
        (minus, 2, opAssoc.LEFT),
    ]
)

# 测试解析器
result = expr.parse_string("3 + 5 - 2")
print(result.as_list())

infix_notation 用于定义中缀表达式解析规则，支持运算符的优先级和结合性。

解析CSV文件

pyparsing 也可以用于解析CSV文件并提取结构化数据：

from pyparsing import Word, alphas, nums, delimited_list

# 定义解析规则
field = Word(alphas + nums)
csv_line = delimited_list(field)

# 测试解析器
csv_data = "Alice,30,Bob,25,Charlie,20"
result = csv_line.parse_string(csv_data)
print(result.as_list())

总结

Python 的 pyparsing 库是一个强大且灵活的文本解析工具，适用于从简单的字符串匹配到复杂的嵌套结构解析。通过直观的规则定义和丰富的功能，pyparsing 帮助开发者更高效地处理文本解析任务。无论是解析日志文件、配置文件，还是构建自己的小型DSL，pyparsing 都能提供简洁优雅的解决方案。

如果你觉得文章还不错，请大家点赞、分享、留言下，因为这将是我持续输出更多优质文章的最强动力！

我们还为大家准备了Python资料，感兴趣的小伙伴快来找我领取一起交流学习哦！

往期推荐

Python基础学习常见的100个问题.pdf（附答案）

Python办公自动化完全指南(免费PDF)

Python Web 开发常见的100个问题.PDF

Beautiful Soup快速上手指南，从入门到精通(PDF下载)

124个Python案例，完整源代码！

80个Python数据分析必备实战案例.pdf(附代码)，完全开放下载

120道Python面试题.pdf ，完全版开放下载

全网最全 Pandas的入门与高级教程全集，都在这里了！(PDF下载)

点击下方“阅读原文”查看更多

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

图片生成

Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型，相比 3.0 版本，它提升了图像质量、运行速度和硬件效率