正则表达式优化:分布交替与循环展开技巧
1. 分布交替优化
分布交替优化是一种对正则表达式进行优化的技巧。我们通过一个示例来理解,比较 !(?:com<edu<...<[a-z][a-z])\b" 和 !com\b;edu\b;...\b;[a-z][a-z]\b" 。在后者中,交替后的 !\b" 被分布到了每个可选部分的末尾。
这种优化的潜在好处是,对于那些原本匹配但会被交替后的 !\b" 撤销匹配的可选部分,能在交替内部更快地判定失败。这样可以在退出交替的开销产生之前就识别出失败情况。
不过,这个例子可能不是展示该技巧价值的最佳示例,因为它仅在特定情况下有优势,即某个可选部分可能匹配,但紧随其后的部分可能失败。
需要注意的是,这种优化存在一定风险。在进行手动优化时,要避免破坏更有利的原生优化。例如,当“分布”的子表达式是字面文本时,如将 !(?:this<that):) 中的冒号分布为 !this:;that: ,就会与“暴露字面文本”部分的优化理念产生冲突。一般来说,那些原生优化可能更有成效,所以要谨慎使用这种优化。
在支持暴露结束锚点的系统中,分布正则表达式结尾的 !$" 也需要注意。例如, !(?:com<edu<...)$" 比分布后的 !com$;edu$;...$" 要快得多(在测试的众多系统中,目前只有 Perl 支持这一
超级会员免费看
订阅专栏 解锁全文
7

被折叠的 条评论
为什么被折叠?



