正则基础之——捕获组(capture group)

本文详细介绍了正则表达式中的捕获组概念,包括普通捕获组与命名捕获组的区别、编号规则及如何引用捕获组等内容。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1        概述

1.1     什么是捕获组

捕获组就是把正则表达式中子表达式匹配的内容,保存到内存中以数字编号或显式命名的组里,方便后面引用。当然,这种引用既可以是在正则表达式内部,也可以是在正则表达式外部。

捕获组有两种形式,一种是普通捕获组,另一种是命名捕获组,通常所说的捕获组指的是普通捕获组。语法如下:

普通捕获组:(Expression)

命名捕获组:(?<name>Expression)

普通捕获组在大多数支持正则表达式的语言或工具中都是支持的,而命名捕获组目前只有.NETPHPPython等部分语言支持,据说Java会在7.0中提供对这一特性的支持。上面给出的命名捕获组的语法是.NET中的语法,另外在.NET中使用(?’name’Expression)与使用(?<name>Expression)是等价的。在PHPPython中命名捕获组语法为:(?P<name>Expression)

另外需要说明的一点是,除(Expression)(?<name>Expression)语法外,其它的(?...)语法都不是捕获组。

1.2     捕获组编号规则

编号规则指的是以数字为捕获组进行编号的规则,在普通捕获组或命名捕获组单独出现的正则表达式中,编号规则比较清晰,在普通捕获组与命名捕获组混合出现的正则表达式中,捕获组的编号规则稍显复杂。

在展开讨论之前,需要说明的是,编号为0的捕获组,指的是正则表达式整体,这一规则在支持捕获组的语言中,基本上都是适用的。下面对其它编号规则逐一展开讨论。

1.2.1  普通捕获组编号规则

如果没有显式为捕获组命名,即没有使用命名捕获组,那么需要按数字顺序来访问所有捕获组。在只有普通捕获组的情况下,捕获组的编号是按照“(”出现的顺序,从左到右,从1开始进行编号的

正则表达式:(\d{4})-(\d{2}-(\d\d))

 普通捕获组 

上面的正则表达式可以用来匹配格式为yyyy-MM-dd的日期,为了在下表中得以区分,月和日分别采用了\d{2}\d\d这两种写法。

用以上正则表达式匹配字符串:2008-12-31,匹配结果为:

编号

命名

捕获组

匹配内容

0

 

(\d{4})-(\d{2}-(\d\d))

2008-12-31

1

 

(\d{4})

2008

2

 

(\d{2}-(\d\d))

12-31

3

 

(\d\d)

31

1.2.2  命名捕获组编号规则

命名捕获组通过显式命名,可以通过组名方便的访问到指定的组,而不需要去一个个的数编号,同时避免了在正则表达式扩展过程中,捕获组的增加或减少对引用结果导致的不可控。

不过容易忽略的是,命名捕获组也参与了编号的,在只有命名捕获组的情况下,捕获组的编号也是按照“(”出现的顺序,从左到右,从1开始进行编号的

正则表达式:(?<year>\d{4})-(?<date>\d{2}-(?<day>\d\d))

命名捕获组 

用以上正则表达式匹配字符串:2008-12-31

匹配结果为:

编号

命名

捕获组

匹配内容

0

 

(?<year>\d{4})-(?<date>\d{2}-(?<day>\d\d))

2008-12-31

1

year

(?<year>\d{4})

2008

2

date

(?<date>\d{2}-(?<day>\d\d))

12-31

3

day

(?<day>\d\d)

31

1.2.3  普通捕获组与命名捕获组混合编号规则

当一个正则表达式中,普通捕获组与命名捕获组混合出现时,捕获组的编号规则稍显复杂。对于其中的命名捕获组,随时都可以通过组名进行访问,而对于普通捕获组,则只能通过确定其编号后进行访问。

混合方式的捕获组编号,首先按照普通捕获组中“(”出现的先后顺序,从左到右,从1开始进行编号,当普通捕获组编号完成后,再按命名捕获组中“(”出现的先后顺序,从左到右,接着普通捕获组的编号值继续进行编号。

也就是先忽略命名捕获组,对普通捕获组进行编号,当普通捕获组完成编号后,再对命名捕获组进行编号。

正则表达式:(\d{4})-(?<date>\d{2}-(\d\d))

 捕获组——混合

用以上正则表达式匹配字符串:2008-12-31,匹配结果为:

编号

命名

捕获组

匹配内容

0

 

(\d{4})-(?<date>\d{2}-(\d\d))

2008-12-31

1

 

(\d{4})

2008

3

date

(?<date>\d{2}-(\d\d))

12-31

2

 

(\d\d)

31

2       捕获组的引用

对捕获组的引用一般有以下几种:

1)       正则表达式中,对前面捕获组捕获的内容进行引用,称为反向引用;

2)       正则表达式中,(?(name)yes|no)的条件判断结构;

3)       在程序中,对捕获组捕获内容的引用。

2.1     反向引用

捕获组捕获到的内容,不仅可以在正则表达式外部通过程序进行引用,也可以在正则表达式内部进行引用,这种引用方式就是反向引用。

反向引用的作用通常是用来查找或限定重复,限定指定标识配对出现等等。

对于普通捕获组和命名捕获组的引用,语法如下:

普通捕获组反向引用:\k<number>,通常简写为\number

命名捕获组反向引用:\k<name>或者\k'name'

普通捕获组反向引用中number是十进制的数字,即捕获组的编号;命名捕获组反向引用中的name为命名捕获组的组名。

反向引用涉及到的内容比较多,后续单独说明。

2.2     条件判断表达式

条件判断结构在平衡组中谈到过,基本应用和扩展应用都可以在其中找到例子,这里不再赘述,请参考 .NET正则基础之——平衡组

2.3     程序中引用

根据语言的不同,程序中对捕获组引用的方式也有所不同,下面就JavaScript.NET进行举例说明。

2.3.1  JavaScript中的引用

由于JavaScript中不支持命名捕获组,所以对于捕获组的引用就只支持普通捕获组的反向引用和$number方式的引用。程序中的引用一般在替换和匹配时使用。

注:以下应用举例仅考虑简单应用场景,对于<a href="javascript:document.write('<b>hello</b>')"/>这种复杂场景暂不考虑。

1)         Replace中引用,通常是通过$number方式引用。

举例:替换掉html标签中的属性。

<textarea id="result" rows="10" cols="100"></textarea> 
<script type="text/javascript"> 
var data = "<table id=\"test\"><tr class=\"light\"><td> test </td></tr></table>";
var reg = /<([a-z]+)[^>]*>/ig;
document.getElementById("result").value = data.replace(reg, "<$1>");
</script>
//输出

<table><tr><td> test </td></tr></table>

2)         在匹配时的引用,通常通过RegExp.$number方式引用。

举例:同时获取<img…>中的srcname属性值,属性的顺序不固定。参考 一条正则能不能同时取出一个img标记的srcname?

 

 

 

2.3.2  .NET中的引用

由于.NET支持命名捕获组,所以在.NET中的引用方式会多一些。通常也是在两种场景下应用,一是替换,一是匹配。

1)         替换中的引用

普通捕获组:$number

命名捕获组:${name}

替换中应用,仍是上面的例子。

举例:替换掉html标签中的属性。使用普通捕获组。

string data = "<table id=\"test\"><tr class=\"light\"><td> test </td></tr></table>";

richTextBox2.Text = Regex.Replace(data, @"(?i)<([a-z]+)[^>]*>", "<$1>");

//输出

<table><tr><td> test </td></tr></table>

使用命名捕获组。

string data = "<table id=\"test\"><tr class=\"light\"><td> test </td></tr></table>";

richTextBox2.Text = Regex.Replace(data, @"(?i)<(?<tag>[a-z]+)[^>]*>", "<${tag}>");

//输出

<table><tr><td> test </td></tr></table>

2)         匹配后的引用

对于匹配结果中捕获组捕获内容的引用,可以通过GroupsResult对象进行引用。

string test = "<a href=\"http://www.youkuaiyun.com\">优快云</a>";

Regex reg = new Regex(@"(?is)<a(?:(?!href=).)*href=(['""]?)(?<url>[^""'\s>]*)\1[^>]*>(?<text>(?:(?!</a>).)*)</a>");

MatchCollection mc = reg.Matches(test);

foreach (Match m in mc)

{

     richTextBox2.Text += "m.Value".PadRight(25) + m.Value + "\n";

     richTextBox2.Text += "m.Result(\"$0\")".PadRight(25) + m.Result("$0") + "\n";

     richTextBox2.Text += "m.Groups[0].Value".PadRight(25) + m.Groups[0].Value + "\n";

     richTextBox2.Text += "m.Result(\"$2\")".PadRight(25) + m.Result("$2") + "\n";

     richTextBox2.Text += "m.Groups[2].Value".PadRight(25) + m.Groups[2].Value + "\n";

     richTextBox2.Text += "m.Result(\"${url}\")".PadRight(25) + m.Result("${url}") + "\n";

     richTextBox2.Text += "m.Groups[\"url\"].Value".PadRight(25) + m.Groups["url"].Value + "\n";

     richTextBox2.Text += "m.Result(\"$3\")".PadRight(25) + m.Result("$3") + "\n";

     richTextBox2.Text += "m.Groups[3].Value".PadRight(25) + m.Groups[3].Value + "\n";

     richTextBox2.Text += "m.Result(\"${text}\")".PadRight(25) + m.Result("${text}") + "\n";

     richTextBox2.Text += "m.Groups[\"text\"].Value".PadRight(25) + m.Groups["text"].Value + "\n";

}

//输出

m.Value                 <a href="http://www.youkuaiyun.com">优快云</a>

m.Result("$0")          <a href="http://www.youkuaiyun.com">优快云</a>

m.Groups[0].Value       <a href="http://www.youkuaiyun.com">优快云</a>

m.Result("$2")          http://www.youkuaiyun.com

m.Groups[2].Value       http://www.youkuaiyun.com

m.Result("${url}")      http://www.youkuaiyun.com

m.Groups["url"].Value   http://www.youkuaiyun.com

m.Result("$3")          优快云

m.Groups[3].Value       优快云

m.Result("${text}")     优快云

m.Groups["text"].Value  优快云

对于捕获组0的引用,可以简写作m.Value

 

<think>嗯,用户让我介绍一下“捕获组”,那我得先理清楚这个概念。捕获组正则表达式中应该是一个比较基础但重要的部分吧。首先,我得回忆一下自己学过的相关知识,确保正确性。 捕获组,顾名思議,就是在正则表达式中用来捕获(提取)匹配内容的部分。通过括号将子模式括起来,这样在匹配时就能单独获取这部分的内容。比如用户可能用(\d+)来匹配数字,然后可以提取这个数字进行后续处理。那应用场景应该包括数据提取、替换操作等。 不过,用户可能不太清楚非捕获组捕获组的区别,或者反向引用的用法。比如,非捕获组用的是(?:...),而捕获组会分配组号,从1开始,按左括号的顺序。可能还要举例子,比如替换电话号码中的区号,或者验证重复单词。 需要注意的是,不同编程语言中的实现可能略有差异,比如组号的分配,或者命名的捕获组的语法(像Python用?P<name>,而其他语言可能不同)。这部分可能需要提到,但不用太深入,避免混淆用户。 用户的需求可能是想了解捕获组的基本概念和应用,以及如何使用。可能需要从定义、作用、基本语法、示例这几个方面展开。结构要清晰,步骤化,比如先解释是什么,然后怎么用,再举例说明,最后注意事项。 在示例部分,可以用一个替换电话号码的例子,把(123)456-7890变成123-456-7890,展示如何用捕获组提取各部分。另一个例子是匹配重复单词,用反向引用\1来引用第一个捕获组的内容,这样可以检测像"the the"这样的重复。 还要提醒用户常见的误区,比如组号是从1开始,以及嵌套括号时的顺序问题。比如((a)(b))的话,外层的组1,然后是a组2,b组3。这点可能容易搞错,需要强调。 最后,确保使用正确的中文术语,避免直译英文可能导致的表述不清。比如“反向引用”而不是“backreference”,但可能需要括号内注明英文术语,帮助用户对应其他资料。 总结一下,回答的结构应该是: 1. 捕获组的定义和作用 2. 基本语法和组号分配 3. 应用场景(数据提取、替换、反向引用) 4. 示例(电话号码、重复单词) 5. 注意事项(组号顺序、非捕获组、语言差异) 这样用户就能逐步理解捕获组的概念和使用方法了。需要检查是否有错误的地方,比如是否正确解释了组号的分配,是否有语法错误,比如在正则表达式中是否正确使用了括号和反斜杠,比如在替换时使用的$1是否正确,或者是否是\1,根据上下文环境而定。例如在替换操作中,某些语言使用$1,而在模式中的反向引用使用\1,这点需要明确区分,避免示例出错。 另外,可能需要提到命名捕获组,虽然用户可能没有问,但作为扩展稍微提一下可以增加回答的全面性,比如(?<name>...)的语法,但不要过于深入,以免让初学者感到复杂。 现在组织语言,确保用中文口语化,但保持专业性。避免使用过于技术化的术语而不解释,同时例子要贴近实际应用,让用户容易理解。</think>捕获组正则表达式中用于提取和引用匹配内容的核心功能。以下从定义到应用逐步说明: --- ### 一、捕获组是什么? - **定义**:用括号 `()` 包裹的正则表达式子模式,匹配时会将括号内内容单独存储,供后续提取或引用。 - **核心作用**:精准定位和复用模式中的特定部分。 --- ### 二、基本语法与组号分配 1. **语法**:直接使用 `(子模式)`,例如 `(\d+)` 匹配连续数字。 2. **组号规则**: - 按左括号顺序编号,从 **1** 开始。 - 嵌套示例:`((a)(b))` 中: - 组1:`ab` - 组2:`a` - 组3:`b` --- ### 三、核心应用场景 #### 场景1:数据提取 - **示例**:从 `姓名:张三, 年龄:25` 提取姓名和年龄: ```regex 姓名:(\w+), 年龄:(\d+) ``` - 组1:`张三` - 组2:`25` #### 场景2:替换文本 - **示例**:将 `(123)456-7890` 格式化为 `123-456-7890`: ```regex (\(\d{3}\))(\d{3}-\d{4}) ``` - 替换为 `$1-$2`(组1为 `123`,组2为 `456-7890`) #### 场景3:反向引用(匹配重复内容) - **示例**:检测重复单词如 `the the`: ```regex (\b\w+\b)\s+\1 ``` - `\1` 表示引用组1匹配的单词(如 `the`) --- ### 四、实际代码示例(Python) ```python import re # 提取日期中的年月日 text = "2023-10-05" pattern = r"(\d{4})-(\d{2})-(\d{2})" match = re.match(pattern, text) if match: print(f"年: {match.group(1)}, 月: {match.group(2)}, 日: {match.group(3)}") # 输出:年: 2023, 月: 10, 日: 05 # 替换电话号码格式 text = "(123)456-7890" new_text = re.sub(r"\((\d{3})\)(\d{3}-\d{4})", r"\1-\2", text) print(new_text) # 输出:123-456-7890 ``` --- ### 五、注意事项 1. **非捕获组**:用 `(?:子模式)` 避免占用组号(例如 `(?:\d+)-(\w+)` 仅捕获字母部分)。 2. **语言差异**: - 命名捕获组语法不同(如Python用 `(?P<name>...)`,JavaScript用 `(?<name>...)`)。 - 替换时引用方式可能为 `$1`(替换操作)或 `\1`(模式中的反向引用)。 3. **性能**:过多捕获组可能影响效率,非必要时应使用非捕获组
评论 15
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值