正则表达式的优化---用RegexBuddy进行效率分析

最新推荐文章于 2025-04-06 17:02:48 发布

原创最新推荐文章于 2025-04-06 17:02:48 发布 · 3k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#正则表达式

编程调试手记同时被 2 个专栏收录

6 篇文章

订阅专栏

1 篇文章

订阅专栏

通过《高性能的正则表达式效率优化》文章，作者实践并优化正则表达式，避免了不必要的分组和冗余部分。使用RegexBuddy分析工具，展示了优化后的正则表达式匹配流程，仅12步和一次回溯，显著提升了效率，并解决了域名合法性、回溯等问题。

昨天看到《高性能的正则表达式效率优化》一文，自己动手试了试。发觉其优化后的正则表达式仍太罗嗦，自己另写~并用RegexBuddy查看匹配流程。其优化后的正则表达式如下：
^\w+([\.-]\w+)*@\w+([\.-]\w+)*\.\w+([-\.]\w+)*$
该表达式有几个不足之处：
1. 头尾不应该用^$
2. 无须分组，这里用了三个组，若其用于网络爬虫将严重拖慢速度、吞噬内存
3. 没有域名合法性检查
4. @符号前名称判断太罗嗦
5. @符号后二处\w+([.-]\w+)*，明显太累赘
我的正则表达式如下：

\b[\w\.\-]+\b@(?:\b[\w\-]+\.){1,2}[a-zA-Z]{2,3}

测试用文本同前文例子，如图：
正则表达式测试RegexBuddy图片
点选“Debug”按钮右侧的倒三角，选择“Debug everywhere”,
得到匹配流程分析：

可以看到只有12步，及一个回溯！效率高得多了！！前述五个问题都得到解决。该表达式主要使用\b来匹配一个词的头尾。

几天后，得空又看到这段正则表达式的不足之处，没考虑正则表达式引擎的运行机制：按字符、表达式的顺序执行匹配
最优表达式，在三段域名情形下（admin@open-lib.com.cn）无回溯匹配：

\b[\w\.\-]+\b@\b[\w\-]+\b(?:\.[A-Za-z]{2,3}){1,2}\b

完！快自己动手用RegexBuddy试试吧

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。