高效正则表达式的构建与性能优化
非匹配情况下的工作
当正则表达式无法匹配时,会有大量额外的工作。以正则表达式 ".+"!
为例,它无法匹配示例文本 "The name \"McDonald’s\" is said \"makudonarudo\" in Japanese"
,但在匹配尝试过程中多次接近匹配,这导致了大量的回溯操作。
如图 6 - 4 所示,从 A 到 I 的匹配尝试失败后,会继续从其他位置(如 J、Q、V)重试,但最终在 Y 位置,所有可能的位置都尝试完,整体匹配失败。这个过程需要大量的工作来确定匹配失败。
更精确的匹配
将正则表达式中的点( .
)替换为 [^"]
可以使匹配更精确,从而提高效率。例如,正则表达式 "[^"]+"!
中的 [^"]+
无法越过闭合引号,减少了大量的匹配和回溯操作。
如图 6 - 5 所示,与图 6 - 4 相比,需要的回溯操作明显减少。如果这种不同的匹配结果符合需求,减少回溯是一个很好的副作用。
交替匹配的代价
交替匹配是回溯的主要原因之一。以测试字符串 "The name \