25、正则表达式深入解析：从基础到高级应用

最新推荐文章于 2025-11-29 20:31:41 发布

week9

最新推荐文章于 2025-11-29 20:31:41 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏： JavaScript精髓与实践技巧文章标签：正则表达式匹配贪婪匹配

本文链接：https://blog.youkuaiyun.com/week9/article/details/150504677

JavaScript精髓与实践技巧专栏收录该内容

32 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

正则表达式深入解析：从基础到高级应用

1. 输入消耗：正则表达式的工作本质

很多人对正则表达式的理解比较简单，认为它只是“在大字符串中查找子字符串”，就像在干草堆里找针一样。但这种简单的理解会限制我们对正则表达式本质的认识，也不利于将其用于更强大的任务。

实际上，正则表达式是一种用于消耗输入字符串的模式，匹配结果只是这种操作的副产品。为了更好地理解正则表达式的工作方式，我们可以借助一个常见的儿童单词游戏：在字母网格中找单词。

假设游戏的第一行字母是：X J A N L I O N A T U R E J X E E L N P。人类能很快找出 LION、NATURE 和 EEL 等单词，但计算机和正则表达式没那么聪明。下面我们从正则表达式的角度来看这个游戏，既能了解它的工作原理，也能发现一些需要注意的局限性。

为了简化，我们让正则表达式查找 LION、ION、NATURE 和 EEL 这几个单词。正则表达式从第一个字符 X 开始，发现要找的单词都不以 X 开头，就判定“不匹配”，然后移动到下一个字符 J，同样不匹配，再移动到 A。在这个过程中，正则引擎经过的字符被视为已消耗。直到遇到 L，正则引擎会认为“这可能是 LION”，此时不会消耗 L，这是一个重要的点。接着它会依次匹配 I、O、N，确认匹配成功后，就会消耗整个单词 LION。

这里有趣的是，LION 和 NATURE 有重叠部分。人类对此并不困扰，但正则表达式不会回头去已消耗的部分找匹配。所以它找不到 NATURE，因为 N 已经被消耗了，只能找到 ATURE，而这不是它要找的单词。不过，它最终能找到 EEL。

如果把 LION 中的 O 换成 X，会发生什么呢？当正则表达式遇到 L 时，仍会认为可能匹配 LION，不消耗 L，继续到 I 也不消耗。但到 X 时，它会发现不匹配，因为没有以 LIX 开头的单词。这时，它会回到认为有匹配的 L 处，消耗 L 后继续正常移动，这次就能匹配 NATURE 了，因为 N 没有在匹配 LION 时被消耗。

正则表达式“消耗”字符串的一般算法如下：
- 字符串从左到右被消耗。
- 一旦一个字符被消耗，就不会再被访问。
- 如果没有匹配，正则表达式会逐个字符前进，尝试找到匹配。
- 如果有匹配，正则表达式会一次性消耗匹配中的所有字符；如果是全局正则表达式，匹配会继续从下一个字符开始。

这个算法的细节其实更复杂，在某些情况下，如果正则表达式能确定不会有匹配，算法会提前终止。在学习正则表达式的具体语法时，要时刻记住这个算法，想象字符串从左到右逐个字符被消耗，直到找到匹配，然后一次性消耗整个匹配。