正则表达式之(exp),(?:exp),(?=exp) 理解

最新推荐文章于 2021-11-17 12:44:49 发布

转载最新推荐文章于 2021-11-17 12:44:49 发布 · 7.9k 阅读

23 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/WuLex

正则表达式专栏收录该内容

38 篇文章

订阅专栏

本文详细解释了正则表达式中的分组与位置类元数据的概念，并介绍了非获取匹配、正向预查与反向预查等高级用法。

先澄清下如下俩个概念：

1、分组（或捕获组）

分组的定义

正则表达式通过使用括号将表达式分为不同的分组，识别的方法是通过从左至右搜寻左半括号，遇到第一个左半括号时，则该左半括号与对应的右半括号所包含的内容即为第一分组，以此类推。例如，在表达式((A)(B(C)))，有四个这样的组：((A)(B(C)))、(A)、(B(C))、(C)

分组存在意义

向后引用：在第i个分组中被匹配的字符串，可以在在正则表达式中通过\i方式再次引用，例如\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty。

分组取值：当通过正则表达式匹配到字符串时，可以使用matcher.group(i)等方式取到第i个分组所匹配到的子字符串。

2、位置类元数据

即像^、$、\b、\B这样的元字符，是用来表示一个位置。作为一个判断条件，匹配的字符需要满足这样的位置信息，但最终匹配的字符串中并不会包含这个样的位置信息。这也是与其他一些元字符所区别的地方，例如表达式中出现\d这样元字符，则最终匹配的字符串中必定需要有数字出现,而\b(\w+)\b表达式匹配的字符串仅仅是一个完整的单词，而不会出现空格等字符来表达位置信息。

其实清楚上面俩个概念后，下面的也就不难理解了：

(exp) ：目标字符串需要匹配exp,并将该分组匹配的子文本保存到自动命名的组里；

(?<name>exp)：目标字符串需要匹配exp,并将该分组匹配的子文本保存到名称为name的组里，也可以写成(?'name'exp)；

(?:exp) ：目标字符串需要匹配exp, 该括号所包括的内容不会被作为一个分组对待，即不给此“分组”分配组号，也不会并将该”分组”匹配的子文本保存；该表达式与（exp）在效果上其实应该是没有区别的，区别只是是否算作一个分组及是否保存匹配的子文本。

(?=exp) ：定义目标字符串结束位置要求，即紧随目标字符串后面出现的字符串需要匹配上exp表达式，该字符串不会被计入目标字符串，表达中出现的括号也不会被视作一个分组；

(?<=exp)：定义目标字符串起始位置要求，即紧邻目标字符串前面出现的字符串需要匹配上exp表达式，该字符串不会被计入目标字符串，表达中出现的括号也不会被视作一个分组；

(?!exp)：定义目标字符串结束位置要求，即紧随目标字符串后面出现的字符串不能匹配上exp表达式，该字符串不会被计入目标字符串，表达中出现的括号也不会被视作一个分组；效果上与(?=exp) 表示的情况刚好相反；

(?<!exp)：定义目标字符串起始位置要求，即紧邻目标字符串前面出现的字符串不能匹配上exp表达式，该字符串不会被计入目标字符串，表达中出现的括号也不会被视作一个分组；效果上与(?<=exp)表示的情况刚好相反；

正则表达式 - `(?!), (?:), (?=)`

(?:pattern)

非获取匹配，匹配pattern但不获取匹配结果，不进行存储供以后使用。这在使用或字符“(|)”来组合一个模式的各个部分是很有用。例如“industr(?:y|ies)”就是一个比“industry|industries”更简略的表达式。

(?=pattern)

非获取匹配，正向肯定预查，在任何匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。例如，“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”，但不能匹配“Windows3.1”中的“Windows”。预查不消耗字符，也就是说，在一个匹配发生后，在最后一次匹配之后立即开始下一次匹配的搜索，而不是从包含预查的字符之后开始。

(?!pattern)

非获取匹配，正向否定预查，在任何不匹配pattern的字符串开始处匹配查找字符串，该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”，但不能匹配“Windows2000”中的“Windows”。