正则表达式的酿成的“惨案”

早上在Java技术栈的公众号里面看到了一篇关于正则表达式的文章,“一个正则表达式酿成的惨案”。想起之前自己看了正则表达式,避免之后会发生类似错误,于是点进去看了看,发现这是一个再普通不过的错误了,也就是大家都会犯的一个错误。

cpu的利用率达到100%:
这里写图片描述
正则表达式的引擎有两种:一种是DFA(Deterministic Final Automata 确定型有穷自动机)和NFA自动机(Nondeterministic Finite Automaton 不确定型有穷自动机)

DFA的时间复杂度是线性的,更加稳定,但是功能有限。

NFA的时间复杂度比较不稳定,有时候很好,有时候不怎么好,好不好取决于你写的正则表达式。不过他的功能更强大,Java,.NET,Perl,Python,Ruby,PHP等语言都使用了NFA去实现正则表达式。
这里有关于DFA和NFA详细的解释:https://blog.youkuaiyun.com/little_nai/article/details/52528294学计算机的同学,编译原理书籍有哟,大家要认真学习!!!
下面举个例子解释下NFA的工作原理

text = "today is a nice day." regex = "day"

首先我们拿正则表达式的第一个字符d去和字符串比较,一直比较直到遇到匹配的停止匹配;然后拿正则表达式的第二个字符a去匹配,从刚刚匹配到的d的下一个a开始比较,直到匹配成功,继续正则表达式的下一个字符和匹配到的字符串的下一个开始匹配,一次循环,直到正则表达式结束。
正则表达式回溯:

text = "abc" regex = "ab{1,3}c"

(直接摘录)
1.首先,读取正则表达式第一个匹配符 a 和 字符串第一个字符 a 比较,匹配了。于是读取正则表达式第二个字符。

2.读取正则表达式第二个匹配符 b{1,3} 和字符串的第二个字符 b 比较,匹配了。但因为 b{1,3} 表示 1-3 个 b 字符串,以及 NFA 自动机的贪婪特性(也就是说要尽可能多地匹配),所以此时并不会再去读取下一个正则表达式的匹配符,而是依旧使用 b{1,3} 和字符串的第三个字符 b 比较,发现还是匹配。于是继续使用 b{1,3} 和字符串的第四个字符 c 比较,发现不匹配了。此时就会发生回溯。

3.发生回溯是怎么操作呢?发生回溯后,我们已经读取的字符串第四个字符 c 将被吐出去,指针回到第三个字符串的位置。之后,程序读取正则表达式的下一个操作符 c,读取当前指针的下一个字符 c 进行对比,发现匹配。于是读取下一个操作符,但这里已经结束了。

在写正则表达式的时候我们可能想的不是那么的周全,可能会遇到一些漏了些特殊符号什么的,但是我们又不可能遇到一次改一次正则表达式。其实在正则表达式有三种模式:贪婪模式,懒惰模式,独占模式
1.贪婪模式:在有关数量的匹配中,有+?*{min,max}四中两次,如果只是单独使用,那么他们就是贪婪模式
2.懒惰模式:在这四种模式单独使用后面加个?就是懒惰模式。但是懒惰模式还是会发生回溯现象,如下面的例子:

text = "abbc" regex = "ab{1,3}?c"

(直接摘录)
正则表达式的第一个操作符 a 与 字符串第一个字符 a 匹配,匹配成。于是正则表达式的第二个操作符 b{1,3}? 和 字符串第二个字符 b 匹配,匹配成功。因为最小匹配原则,所以拿正则表达式第三个操作符 c 与字符串第三个字符 b 匹配,发现不匹配。于是回溯回去,拿正则表达式第二个操作符 b{1,3}? 和字符串第三个字符 b 匹配,匹配成功。于是再拿正则表达式第三个操作符 c 与字符串第四个字符 c 匹配,匹配成功。于是结束。
3.独占模式:如果在懒惰模式后面加个+符号就是独占模式,即尽可能多的匹配,但是不回溯。
介绍个大家网站验证你写的正则表达式:https://regex101.com/

附个公众号的关注方式:
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值