正则表达式

YiHanXii

已于 2024-11-14 10:19:42 修改

阅读量943

点赞数 7

分类专栏： Java算法笔记文章标签：正则表达式 mysql 数据库 java

于 2024-11-07 10:46:07 首次发布

本文链接：https://blog.youkuaiyun.com/YiHanXii/article/details/143587730

版权

Java算法笔记专栏收录该内容

8 篇文章

订阅专栏

正则表达式（Regular Expression，简称regex或regexp）是一种用于匹配和操作文本的特殊字符串模式。它在文本处理中非常有用，可以用于查找、替换、匹配字符串的特定模式。正则表达式被广泛应用于文本处理、数据验证、文件搜索等各种编程场景。

1. 基本概念

正则表达式是一种模式匹配的工具，能够对文本中的特定字符和组合进行识别和操作。它主要由字符和操作符组成，可以用来定义需要匹配的字符串模式。

2. 常用字符

普通字符：例如字母 (a，b，c) 和数字 (1，2，3)，这些字符会直接匹配自身。
特殊字符：一些特殊字符具有特殊的含义：
- .：匹配除换行符以外的任意一个字符。
- \d：匹配任意数字，相当于 [0-9]。
- \w：匹配字母、数字或下划线，相当于 [a-zA-Z0-9_]。
- \s：匹配任意空白字符，包括空格、制表符、换页符等。

3. 常用元字符和修饰符

量词：
- *：匹配前面的字符0次或多次。例如，a* 可以匹配空字符串、a、aa 等。
- +：匹配前面的字符1次或多次。例如，a+ 可以匹配 a、aa 等，但不匹配空字符串。
- ?：匹配前面的字符0次或1次。例如，a? 可以匹配空字符串或 a。
- {n,m}：匹配前面的字符至少 n 次，至多 m 次。例如，a{2,4} 可以匹配 aa、aaa 或 aaaa。
位置匹配：
- ^：匹配字符串的开头。
- $：匹配字符串的结尾。
- \b：匹配单词边界，例如，\bcat\b 匹配单独的单词 cat。
字符集：
- [ ]：匹配方括号中的任意一个字符。例如，[abc] 可以匹配 a、b 或 c。
- [^ ]：匹配不在方括号中的任意字符。例如，[^abc] 表示匹配除了 a、b、c 之外的任意字符。

4. 示例

匹配邮箱地址：
- 正则表达式：[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}。
- 含义：匹配一个或多个字母、数字、点、下划线等，然后是 @，接着匹配域名和后缀。
匹配电话号码：
- 正则表达式：\d{3}-\d{4}-\d{4}。
- 含义：匹配电话号码格式，如 123-4567-8901。
匹配日期格式：
- 正则表达式：\d{4}/\d{2}/\d{2}。
- 含义：匹配类似 2024/11/07 的日期格式。

5. 应用场景

验证输入：验证用户输入是否符合要求，比如邮箱、电话号码等。
文本搜索和替换：可以快速搜索和替换文本中的特定内容，例如查找文档中的错误拼写并替换。
日志分析：从日志文件中提取有用信息，比如查找特定时间段的日志记录。

6. 实际编程语言的支持

正则表达式被几乎所有主流编程语言所支持，包括：

Python：使用 re 库。
JavaScript：通过 RegExp 对象或字符串上的方法如 match、replace 等。
Java：通过 Pattern 和 Matcher 类。

7. 示例代码（Python）

import re

text = "My email is example@example.com"
pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"

# 搜索匹配的邮箱地址
match = re.search(pattern, text)
if match:
    print("找到邮箱地址:", match.group())
else:
    print("未找到邮箱地址")

正则表达式 [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,} 用于匹配符合典型格式的电子邮件地址。我们可以逐步解析这一正则表达式的每一部分：

解析

[a-zA-Z0-9._%+-]+：
- [a-zA-Z0-9._%+-]：字符集，表示可以匹配以下任意一个字符：
  - a-z：小写字母 (a 到 z)。
  - A-Z：大写字母 (A 到 Z)。
  - 0-9：数字 (0 到 9)。
  - .：点号。
  - _：下划线。
  - %：百分号。
  - +：加号。
  - -：减号。
- +：量词，表示前面的字符集可以出现一次或多次。即，邮箱的用户名部分可以包含上述字符中的一个或多个。
这一部分匹配邮箱地址中的用户名部分，例如 user.name+123.
@：
- @：直接匹配符号 @。电子邮件地址中必定包含 @，将用户名与域名分开。
[a-zA-Z0-9.-]+：
- [a-zA-Z0-9.-]：字符集，表示可以匹配以下任意一个字符：
  - a-z：小写字母 (a 到 z)。
  - A-Z：大写字母 (A 到 Z)。
  - 0-9：数字 (0 到 9)。
  - .：点号。
  - -：减号。
- +：量词，表示前面的字符集可以出现一次或多次。即，域名部分可以包含上述字符中的一个或多个。
这一部分匹配邮箱地址中的域名部分，例如 example.com 或 sub-domain.example.
\.：
- \.：反斜杠 \ 是转义字符，这里用于匹配 .（点号），因为在正则表达式中，. 默认匹配任意字符。\. 表示必须匹配一个实际的点号 .，用于分隔域名和顶级域名（TLD）。
[a-zA-Z]{2,}：
- [a-zA-Z]：字符集，表示可以匹配以下任意一个字符：
  - a-z：小写字母 (a 到 z)。
  - A-Z：大写字母 (A 到 Z)。
- {2,}：量词，表示前面的字符必须出现至少 2 次（可以更多）。这用于匹配顶级域名（TLD），例如 .com、.org、.net 等，顶级域名通常至少有两个字符。

完整的正则表达式 [a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,} 可以分为以下几个部分：

用户名部分：[a-zA-Z0-9._%+-]+
- 匹配一个或多个字母、数字、点号、下划线、百分号、加号、减号，表示电子邮件地址的用户名部分。
@ 符号：@
- 匹配符号 @，用于分隔用户名和域名。
域名部分：[a-zA-Z0-9.-]+
- 匹配一个或多个字母、数字、点号或减号，表示域名部分，可以包含子域名和主域名。
点号和顶级域名：\.[a-zA-Z]{2,}
- \. 匹配实际的点号 .。
- [a-zA-Z]{2,} 匹配至少两个字符的字母，用于匹配顶级域名。