正则表达式规则

简单规则

元字符

.           匹配除换行符以外的任意字符  
\w          匹配字母或数字或下划线或汉字
\s          匹配任意的空白符
\d          匹配数字
\b          匹配单词的开始或结束
^           匹配字符串的开始
$          匹配字符串的结束

对应的大写字母表示相反的意义

\W          匹配字母或数字或下划线或汉字以外的字符
\S          匹配任意的非空白符
\D          匹配非数字
\B          匹配非单词的开始或结束

字符类

要想查找数字, 字母或数字, 空白是很简单的, 因为已经有了对应这些字符集合的元字符, 但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u), 应该怎么办? 很简单, 你只需要在方括号里列出它们就行了, 像[aeiou]就匹配任何一个英文元音字母, [.?!]匹配标点符号(.或?或!).

分组

我们已经提到了怎么重复单个字符( 直接在字符后面加上限定符就行了 ); 但如果想要重复多个字符又该怎么办? 你可以用小括号来指定子表达式( 也叫做分组 ), 然后你就可以指定这个子表达式的重复次数了, 你也可以对子表达式进行其它一些操作( 后面会有介绍 ).

匹配次数

*           重复零次或者更多次
+           重复一次或者更多次
?           重复零次或者一次
{n}         重复n次
{n,}        重复n次或者更多次
{n,m}       重复n次到m次

高级规则

贪婪匹配

当正则表达式中包含能接受重复的限定符时, 通常的行为是( 在使整个表达式能得到匹配的前提下 )匹配尽可能多的字符. 以这个表达式为例: a.*b, 它将会匹配最长的以a开始, 以b结束的字符串. 如果用它来搜索aabab的话, 它会匹配整个字符串aabab. 这被称为贪婪匹配.
有时,我们更需要懒惰匹配, 也就是匹配尽可能少的字符. 前面给出的限定符都可以被转化为懒惰匹配模式, 只要在它后面加上一个问号?. a.*?b会匹配最短的以a开始, 以b结束的字符串. 如果把它应用于aabab的话, 它会匹配aab( 第一到第三个字符 )和ab( 第四到第五个字符 ).

*?          重复任意次, 但尽可能少重复
+?          重复一次或更多次, 但尽可能少重复
??          重复零次或一次, 但尽可能少重复
{n,m}?      重复n次到m次, 但尽可能少重复
{n,}?       重复n次以上, 但可能少重复

反向引用

使用小括号指定一个子表达式后, 匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理. 默认情况下, 每个分组会自动拥有一个组号, 规则是: 从左向右, 以分组的左括号为标志, 第一个出现的分组的组号为1, 第二个为2, 以此类推.
\b(\w+)\b\s+\1\b 可以用来匹配重复的单词, 像go go, 或者kitty kitty. (\w+) 将被捕获到编号为1的分组中, 所以后续的\1将引用这个分组.
你也可以自己指定表达式的组名. 例如: (?<word>\w+) 或者 (?'word'\w+), 这样就把\w+的组名指定为word了. 要反向引用这个分组捕获的内容, 你可以使用\k<word>, 所以上面的例子也可以写成: \b(?<word>\w+)\b\s+\k<word>\b.
需要注意:

  • 分组0对应整个正则表达式
  • 实际上组号分配过程中是从左往右扫描两遍的: 第一遍只给未命名组分配, 第二遍只给命名组分配. 因此所有命名组的组号都大于未命名组的组号
  • 可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权

断言

  • (?=exp): 正向先行断言, 它断言自身后面能够匹配表达式exp. 例如: \b\w+(?=ing\b) 匹配以ing结尾的单词的前面部分(除了ing以外的部分), 如查找 i am singing while you are dancing 时, 它匹配 sing 和 danc.
  • (?!exp): 反向先行断言, 它断言自身后面不能匹配表达式exp. 例如: /d{3}(?!=\d) 匹配三位数字, 而且这三位数字后面不能是数字
  • (?<=exp): 正向后行断言, 它断言自身前面能够匹配表达式exp. 例如: (?<=\bre)\w+\b 匹配以re开头的单词的后半部分(除了re以外的部分), 如查找 reading a book 时, 它匹配 ading.
  • (?<!exp): 反向后行断言, 它断言自身前面不能匹配表达式exp. 例如: (?<![a-z])\d{7} 匹配前面不是小写字母的七位数字

平衡组/递归

### Java 正则表达式规则与使用指南 Java 中的正则表达式(Regular Expression)是一种强大的工具,用于匹配字符串中的字符模式。通过 `java.util.regex` 包中的 `Pattern` 和 `Matcher` 类,可以实现对字符串的搜索、替换和验证等功能[^1]。 #### 一、基本语法 正则表达式的语法包括普通字符、特殊字符和元字符。以下是常用的规则: - 普通字符:如字母、数字等直接匹配自身。 - 特殊字符:需要转义才能匹配其字面意义,例如 `\.` 匹配点号 `.`。 - 元字符:具有特殊含义的字符,例如 `*` 表示零次或多次匹配,`+` 表示一次或多次匹配,`?` 表示零次或一次匹配[^1]。 #### 二、导入相关类 在 Java 中使用正则表达式时,必须导入 `java.util.regex` 包中的类。以下是一个典型的导入语句: ```java import java.util.regex.Pattern; import java.util.regex.Matcher; ``` 这些类提供了创建正则表达式对象和执行匹配操作的功能[^2]。 #### 三、创建正则表达式对象 通过 `Pattern` 类可以编译一个正则表达式字符串为模式对象。例如: ```java Pattern pattern = Pattern.compile("^[a-zA-Z0-9_]+$"); ``` 此代码定义了一个匹配由字母、数字或下划线组成的字符串的正则表达式[^2]。 #### 四、编写不包含特定表达式的正则表达式 如果需要确保字符串中不包含某些字符或模式,可以通过否定字符集或逻辑排除实现。例如,以下正则表达式匹配不包含空格的字符串: ```java Pattern pattern = Pattern.compile("^[^\\s]+$"); ``` 这里,`[^\\s]` 表示匹配任何非空白字符[^3]。 #### 五、验证邮箱格式 验证邮箱格式是正则表达式的一个常见应用场景。以下是一个符合标准的邮箱验证正则表达式: ```java String emailRegex = "^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\\.[a-zA-Z0-9-.]+$"; Pattern pattern = Pattern.compile(emailRegex); ``` 该表达式能够匹配大多数合法的电子邮件地址[^4]。 #### 六、使用 `Matcher` 进行匹配检查 `Matcher` 类用于执行匹配操作。以下是一个完整的示例,展示如何验证字符串是否符合指定的正则表达式: ```java Pattern pattern = Pattern.compile("^[a-zA-Z0-9_]+$"); Matcher matcher = pattern.matcher("test_user123"); boolean isMatch = matcher.matches(); System.out.println(isMatch); // 输出 true 或 false ``` #### 七、替换字符串 除了匹配,还可以使用正则表达式替换字符串中的内容。例如: ```java String input = "Hello, World!"; String result = input.replaceAll("[A-Za-z]", "*"); System.out.println(result); // 输出 "**,,****!" ``` 上述代码将所有字母替换为星号 `*`[^2]。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值