正则表达式的酿成的“惨案”

最新推荐文章于 2019-08-10 22:29:00 发布

原创最新推荐文章于 2019-08-10 22:29:00 发布 · 159 阅读

CC 4.0 BY-SA版权

早上在Java技术栈的公众号里面看到了一篇关于正则表达式的文章，“一个正则表达式酿成的惨案”。想起之前自己看了正则表达式，避免之后会发生类似错误，于是点进去看了看，发现这是一个再普通不过的错误了，也就是大家都会犯的一个错误。

cpu的利用率达到100%：
这里写图片描述
正则表达式的引擎有两种：一种是DFA（Deterministic Final Automata 确定型有穷自动机）和NFA自动机（Nondeterministic Finite Automaton 不确定型有穷自动机）

DFA的时间复杂度是线性的，更加稳定，但是功能有限。

NFA的时间复杂度比较不稳定，有时候很好，有时候不怎么好，好不好取决于你写的正则表达式。不过他的功能更强大，Java，.NET，Perl，Python，Ruby，PHP等语言都使用了NFA去实现正则表达式。
这里有关于DFA和NFA详细的解释：https://blog.youkuaiyun.com/little_nai/article/details/52528294学计算机的同学，编译原理书籍有哟，大家要认真学习！！！
下面举个例子解释下NFA的工作原理：

text = "today is a nice day." regex = "day"

首先我们拿正则表达式的第一个字符d去和字符串比较，一直比较直到遇到匹配的停止匹配；然后拿正则表达式的第二个字符a去匹配，从刚刚匹配到的d的下一个a开始比较，直到匹配成功，继续正则表达式的下一个字符和匹配到的字符串的下一个开始匹配，一次循环，直到正则表达式结束。
正则表达式回溯：

text = "abc" regex = "ab{1,3}c"

（直接摘录）
1.首先，读取正则表达式第一个匹配符 a 和字符串第一个字符 a 比较，匹配了。于是读取正则表达式第二个字符。

2.读取正则表达式第二个匹配符 b{1,3} 和字符串的第二个字符 b 比较，匹配了。但因为 b{1,3} 表示 1-3 个 b 字符串，以及 NFA 自动机的贪婪特性（也就是说要尽可能多地匹配），所以此时并不会再去读取下一个正则表达式的匹配符，而是依旧使用 b{1,3} 和字符串的第三个字符 b 比较，发现还是匹配。于是继续使用 b{1,3} 和字符串的第四个字符 c 比较，发现不匹配了。此时就会发生回溯。

3.发生回溯是怎么操作呢？发生回溯后，我们已经读取的字符串第四个字符 c 将被吐出去，指针回到第三个字符串的位置。之后，程序读取正则表达式的下一个操作符 c，读取当前指针的下一个字符 c 进行对比，发现匹配。于是读取下一个操作符，但这里已经结束了。

在写正则表达式的时候我们可能想的不是那么的周全，可能会遇到一些漏了些特殊符号什么的，但是我们又不可能遇到一次改一次正则表达式。其实在正则表达式有三种模式：贪婪模式，懒惰模式，独占模式
1.贪婪模式：在有关数量的匹配中，有+？*{min,max}四中两次，如果只是单独使用，那么他们就是贪婪模式
2.懒惰模式：在这四种模式单独使用后面加个？就是懒惰模式。但是懒惰模式还是会发生回溯现象，如下面的例子：

text = "abbc" regex = "ab{1,3}?c"

（直接摘录）
正则表达式的第一个操作符 a 与字符串第一个字符 a 匹配，匹配成。于是正则表达式的第二个操作符 b{1,3}? 和字符串第二个字符 b 匹配，匹配成功。因为最小匹配原则，所以拿正则表达式第三个操作符 c 与字符串第三个字符 b 匹配，发现不匹配。于是回溯回去，拿正则表达式第二个操作符 b{1,3}? 和字符串第三个字符 b 匹配，匹配成功。于是再拿正则表达式第三个操作符 c 与字符串第四个字符 c 匹配，匹配成功。于是结束。
3.独占模式：如果在懒惰模式后面加个+符号就是独占模式，即尽可能多的匹配，但是不回溯。
介绍个大家网站验证你写的正则表达式：https://regex101.com/

附个公众号的关注方式:
这里写图片描述