高效正则表达式的构建与性能优化
非匹配情况下的工作
当正则表达式无法匹配时,会有大量额外的工作。以正则表达式 ".+"! 为例,它无法匹配示例文本 "The name \"McDonald’s\" is said \"makudonarudo\" in Japanese" ,但在匹配尝试过程中多次接近匹配,这导致了大量的回溯操作。
如图 6 - 4 所示,从 A 到 I 的匹配尝试失败后,会继续从其他位置(如 J、Q、V)重试,但最终在 Y 位置,所有可能的位置都尝试完,整体匹配失败。这个过程需要大量的工作来确定匹配失败。
更精确的匹配
将正则表达式中的点( . )替换为 [^"] 可以使匹配更精确,从而提高效率。例如,正则表达式 "[^"]+"! 中的 [^"]+ 无法越过闭合引号,减少了大量的匹配和回溯操作。
如图 6 - 5 所示,与图 6 - 4 相比,需要的回溯操作明显减少。如果这种不同的匹配结果符合需求,减少回溯是一个很好的副作用。
交替匹配的代价
交替匹配是回溯的主要原因之一。以测试字符串 "The name \
超级会员免费看
订阅专栏 解锁全文
10万+

被折叠的 条评论
为什么被折叠?



