Python中正则表达式

最新推荐文章于 2025-03-11 09:09:29 发布

好运来2333

最新推荐文章于 2025-03-11 09:09:29 发布

阅读量341

点赞数

分类专栏： Python

本文链接：https://blog.youkuaiyun.com/qq_33254870/article/details/108837198

版权

Python 专栏收录该内容

20 篇文章

订阅专栏

本文介绍了如何在Python的正则表达式中处理特殊字符()，包括分组的概念、使用方法，以及如何通过反斜杠转义元字符。重点讲解了`re.match`和`re.findall`函数的应用，以及如何利用group()和groups()获取匹配结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python RE模块正则表达式中常用的字符有两类：普通字符和11个元字符，元字符表示特定的功能，比如下面的（），被括起来的表达式将作为分组，从表达式左边开始每遇到一个分组的左括号“（”，编号+1。分组表达式作为一个整体，可以后接数量词。表达式中的 | 仅在该组中有效。那么我们想匹配表达式中的 () 字符怎么办呢？通过前缀反斜杠 \ 将特殊字符（元字符）转义成普通字符。注：在Python的string前面加上‘r’，即告诉编译器不要转义 \，例如,\n 在raw string中，是两个字符\和n，而不会转义为换行符，但加上‘r’后\n就直接匹配换行符了。
在这里插入图片描述

1. re.match

re.match 尝试从字符串的起始位置匹配一个模式，匹配成功re.match方法返回一个匹配的对象，否则返回None。如果不是起始位置匹配成功的话，match()也返回None。
函数语法：re.match(pattern, string, flags=0)
函数参数说明：

参数	说明
pattern	匹配的正则表达式
string	要匹配的字符串
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

1.1 返回的匹配对象是什么？

import re
string = 'ab+ba-a+b'

print(re.match('[a-z]*\+[a-z]*', string))

在这里插入图片描述
可以看出返回的并不是一个字符串，而是一个返回一个 MatchObject，你可以查询 MatchObject 关于匹配字符串的相关信息了。MatchObject 实例常见的方法有：group() 返回被 RE 匹配的字符串，start() 返回匹配开始的位置，end() 返回匹配结束的位置，span() 返回一个元组包含匹配 (开始,结束) 的位置。

1.2 对re.match.group()的理解

# group(0)是返回整个匹配项
import re
ans = re.match(r"(..)+", "a1b2c3")
print(ans.group(0))
# a1b2c3

 # group(num)返回捕获组的内容，默认只有一个捕获组，并且每次捕获都存在1号捕获组。
import re
ans = re.match(r"(..)+", "a1b2c3")
print(ans.group(1))
# c3

如何设置多个捕获组呢？使用多个括号（）！
注意：(…)+只有1个group(1)的捕获组，每次捕获都存在1号捕获组。

# groups()返回所有捕获组
import re
ans = re.match(r"(..)..(..)", "a1b2c3")
print(ans.groups())
# ('a1', 'c3')
print(ans.group(2))
# c3

注意：re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

在这里插入图片描述

2. re.findall

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。
注意： match 和 search 是匹配一次 findall 匹配所有，另外，re.findall返回的是一个列表。
语法格式为：re.findall(pattern, string, flags=0)
函数参数说明：

参数	说明
pattern	匹配的正则表达式
string	待匹配的字符串

import re
ans = re.compile(r'\d+')
print(ans.findall('o1n2m3k4'))
# ['1', '2', '3', '4']

ans2 = re.findall(r'\d+', 'o1n2m3k4')
print(ans2)
# ['1', '2', '3', '4']

3. re.finditer

re.finditer 和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。
语法：re.finditer(pattern, string, flags=0)
函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

在这里插入图片描述