正则表达式中的回溯与匹配机制深入解析
1. 局部失败与路径测试
当遇到“局部失败”时,正则引擎会回溯到之前保存的状态,就像沿着面包屑的痕迹返回,尝试未测试过的路径。无论是贪婪量词还是懒惰量词,引擎在承认匹配失败之前,都会测试每一条可能的路径。
贪婪量词和懒惰量词测试路径的顺序不同。但最终,如果没有找到匹配项,只有在测试完所有可能的路径后才会确定。
如果只有一个合理的匹配,带有贪婪量词和懒惰量词的正则表达式都会找到该匹配,不过它们到达该匹配所经过的路径序列可能大不相同。在这种情况下,选择贪婪或懒惰量词不会影响匹配的内容,只会影响引擎到达匹配所经过的路径长短,这涉及到效率问题。
如果有多个合理的匹配,理解贪婪、懒惰和回溯机制可以帮助我们确定最终选择的匹配。例如,对于字符串 “The name "McDonald’s" is said "makudonarudo" in Japanese”,正则表达式 ".+" (贪婪星号)会选择最长的匹配,而 ".+?" (懒惰星号)会选择最短的匹配。
2. 占有量词和原子分组
在处理正则匹配时,我们可能会遇到一些问题,例如将正则表达式 (\.\d\d[1-9]?)\d+ 应用于字符串 .625 时,会出现不符合预期的回溯情况。我们希望当 [1-9] 能够匹配时,就不放弃这个匹配,必要时甚至让整个匹配尝试失败。
为了实现这个目标,一些正则表达式风格支持 (?>…) 原子分组或占有量词,
超级会员免费看
订阅专栏 解锁全文
1249

被折叠的 条评论
为什么被折叠?



