python 正则表达式中的贪婪匹配和非贪婪匹配

最新推荐文章于 2025-09-22 12:45:00 发布

原创最新推荐文章于 2025-09-22 12:45:00 发布 · 785 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#面试 #linux #功能测试 #自动化测试 #程序员 #软件测试 #正则表达式

程序员同时被 3 个专栏收录

1659 篇文章

订阅专栏

软件测试

1641 篇文章

订阅专栏

自动化测试

981 篇文章

订阅专栏

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

在正则表达式中，贪婪匹配（Greedy Matching）和非贪婪匹配（Non-greedy Matching，也称为懒惰匹配 Lazy Matching）是指量词（如 *, +, ? 和 {}）如何与文本匹配的方式。理解这两者的区别对于编写有效的正则表达式至关重要。

贪婪匹配

默认情况下，正则表达式的量词是贪婪的。这意味着它们会尽可能多地匹配字符。换句话说，当遇到可以匹配多个字符的情况时，贪婪模式会选择最长的可能匹配。

示例：

import re

text = "Here issometext withtags."

pattern = r'<.*>'

match = re.search(pattern, text)

print(match.group()) # 输出:sometext withtags

在这个例子中，<.*> 试图找到以 < 开始并以 > 结束的最大字符串。因此，它从第一个 < 开始直到最后一个 > 结束，包括中间的所有内容。

非贪婪匹配

如果你希望量词尽可能少地匹配字符，你可以使用非贪婪模式。这通常通过在量词后面添加一个问号 ? 来实现。这样，匹配器会在满足条件的情况下尽早停止扩展匹配范围。

示例：

import re

text = "Here issometext withtags."

pattern = r'<.*?>'

matches = re.findall(pattern, text)

print(matches) # 输出: ['', '', '', '']

这里，<.*?> 尽可能少地匹配字符，因此每次遇到 > 它就会停止当前匹配，并开始寻找下一个匹配项。结果是得到了所有单独的标签，而不是整个字符串作为一个大匹配。

关键点总结：

贪婪模式 (*, +, ?, {}): 默认行为，尽可能多地匹配。

非贪婪模式 (*?, +?, ??, {n,m}?): 在满足条件的前提下，尽可能少地匹配。

选择贪婪还是非贪婪模式取决于你想要解析的数据结构以及你希望如何分割或提取这些数据。理解这一点可以帮助你更精确地控制正则表达式的匹配行为。

正则表达式中贪婪匹配和非贪婪匹配的优先级是什么？

在正则表达式中，贪婪匹配和非贪婪匹配的优先级并不是通过“优先级”这个概念来描述的，而是取决于量词后是否跟随有使它变为非贪婪（懒惰）模式的问号 ?。默认情况下，量词是贪婪的，这意味着它们会尽可能多地匹配字符；而当你在量词后面加上一个问号 ? 时，就会变成非贪婪或称为懒惰模式，这时它们会尽可能少地匹配字符。

贪婪 vs 非贪婪匹配

贪婪匹配：量词（如 *, +, ?, {n,m} 等）默认为贪婪模式，即尽可能多地匹配字符。

非贪婪匹配：通过在量词后面添加一个问号 ? 来实现，例如 *?, +?, ??, {n,m}?，这会让匹配器尽可能少地匹配字符。

关于“优先级”

实际上，在这里讨论的不是传统意义上的运算符优先级，而是匹配行为的选择。当正则表达式引擎执行匹配操作时，如果量词后面跟着一个 ?，那么该量词将以非贪婪的方式工作，否则以贪婪的方式工作。

贪婪匹配示例：

import re

text = "Here issometext withtags."

pattern = r'<.*>'

match = re.search(pattern, text)

print(match.group()) # 输出:sometext withtags

在这个例子中，<.*> 尽可能多地匹配，直到找到最后一个 >。

非贪婪匹配示例：

import re

text = "Here issometext withtags."

pattern = r'<.*?>'

matches = re.findall(pattern, text)

print(matches) # 输出: ['', '', '', '']

使用 <.*?>，匹配器会在遇到第一个 > 时停止当前匹配，并继续寻找下一个匹配项，因此每个标签都被单独匹配出来。

正则表达式中贪婪匹配和非贪婪匹配的例子有哪些？

贪婪匹配

默认情况下，量词是贪婪的，这意味着它们会尽可能多地匹配字符。

示例 1：匹配 HTML 标签（贪婪模式）

import re
text = "
First
Second
"
pattern_greedy = r"
.*
"
# 使用贪婪模式进行搜索
matches = re.findall(pattern_greedy, text)
print(matches)  # 输出: ['
First
Second
']

在这个例子中，.* 尽可能多地匹配字符，直到最后一个结束标签被找到。

非贪婪匹配

在量词后面加上一个问号 ? 可以将贪婪模式转换为非贪婪模式，这样它们就会尽可能少地匹配字符。

示例 2：匹配 HTML 标签（非贪婪模式）

import re
text = "
First
Second
"
pattern_non_greedy = r"
.*?
"
# 使用非贪婪模式进行搜索
matches = re.findall(pattern_non_greedy, text)
print(matches)  # 输出: ['
First
', '
Second
']

在这个例子中，.*? 在遇到第一个结束标签时就停止匹配，因此每个

标签及其内容都被单独识别出来。

示例 3：匹配重复单词（贪婪 vs 非贪婪）

import re

text = "This is a test test sentence."

# 贪婪模式

pattern_greedy = r"(\b\w+\b)\s+\1"

match_greedy = re.search(pattern_greedy, text)

if match_greedy:

print("Greedy Match:", match_greedy.group(0)) # 输出: Greedy Match: test test

# 非贪婪模式

pattern_non_greedy = r"(\b\w+\b)\s+?\1"