23、正则表达式中的回溯与匹配机制深入解析

最新推荐文章于 2025-12-04 17:53:34 发布

脚滑的狐狸160

最新推荐文章于 2025-12-04 17:53:34 发布

阅读量1

点赞数

CC 4.0 BY-SA版权

分类专栏：正则表达式：文本处理的艺术文章标签：正则表达式回溯贪婪量词

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/nginx7reverse/article/details/155584116

正则表达式：文本处理的艺术专栏收录该内容

55 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

正则表达式中的回溯与匹配机制深入解析

1. 局部失败与路径测试

当遇到“局部失败”时，正则引擎会回溯到之前保存的状态，就像沿着面包屑的痕迹返回，尝试未测试过的路径。无论是贪婪量词还是懒惰量词，引擎在承认匹配失败之前，都会测试每一条可能的路径。

贪婪量词和懒惰量词测试路径的顺序不同。但最终，如果没有找到匹配项，只有在测试完所有可能的路径后才会确定。

如果只有一个合理的匹配，带有贪婪量词和懒惰量词的正则表达式都会找到该匹配，不过它们到达该匹配所经过的路径序列可能大不相同。在这种情况下，选择贪婪或懒惰量词不会影响匹配的内容，只会影响引擎到达匹配所经过的路径长短，这涉及到效率问题。

如果有多个合理的匹配，理解贪婪、懒惰和回溯机制可以帮助我们确定最终选择的匹配。例如，对于字符串 “The name "McDonald’s" is said "makudonarudo" in Japanese”，正则表达式 ".+" （贪婪星号）会选择最长的匹配，而 ".+?" （懒惰星号）会选择最短的匹配。

2. 占有量词和原子分组

在处理正则匹配时，我们可能会遇到一些问题，例如将正则表达式 (\.\d\d[1-9]?)\d+ 应用于字符串 .625 时，会出现不符合预期的回溯情况。我们希望当 [1-9] 能够匹配时，就不放弃这个匹配，必要时甚至让整个匹配尝试失败。

为了实现这个目标，一些正则表达式风格支持 (?>…) 原子分组或占有量词，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。