Python中正则表达式

本文介绍了如何在Python的正则表达式中处理特殊字符(),包括分组的概念、使用方法,以及如何通过反斜杠转义元字符。重点讲解了`re.match`和`re.findall`函数的应用,以及如何利用group()和groups()获取匹配结果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Python RE模块正则表达式中常用的字符有两类:普通字符和11个元字符,元字符表示特定的功能,比如下面的(),被括起来的表达式将作为分组,从表达式左边开始每遇到一个分组的左括号“(”,编号+1。分组表达式作为一个整体,可以后接数量词。表达式中的 | 仅在该组中有效。那么我们想匹配表达式中的 () 字符怎么办呢?通过前缀反斜杠 \ 将特殊字符(元字符)转义成普通字符。 注:在Python的string前面加上‘r’,即告诉编译器不要转义 \, 例如,\n 在raw string中,是两个字符\和n,而不会转义为换行符,但加上‘r’后\n就直接匹配换行符了。
在这里插入图片描述

1. re.match

re.match 尝试从字符串的起始位置匹配一个模式,匹配成功re.match方法返回一个匹配的对象,否则返回None。如果不是起始位置匹配成功的话,match()也返回None。
函数语法:re.match(pattern, string, flags=0)
函数参数说明:

参数说明
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

1.1 返回的匹配对象是什么?

import re
string = 'ab+ba-a+b'

print(re.match('[a-z]*\+[a-z]*', string))

在这里插入图片描述
可以看出返回的并不是一个字符串,而是一个返回一个 MatchObject,你可以查询 MatchObject 关于匹配字符串的相关信息了。MatchObject 实例常见的方法有:group() 返回被 RE 匹配的字符串,start() 返回匹配开始的位置,end() 返回匹配结束的位置,span() 返回一个元组包含匹配 (开始,结束) 的位置。

1.2 对re.match.group()的理解

# group(0)是返回整个匹配项
import re
ans = re.match(r"(..)+", "a1b2c3")
print(ans.group(0))
# a1b2c3
 # group(num)返回捕获组的内容,默认只有一个捕获组,并且每次捕获都存在1号捕获组。
import re
ans = re.match(r"(..)+", "a1b2c3")
print(ans.group(1))
# c3

如何设置多个捕获组呢?使用多个括号()!
注意:(…)+只有1个group(1)的捕获组,每次捕获都存在1号捕获组。

# groups()返回所有捕获组
import re
ans = re.match(r"(..)..(..)", "a1b2c3")
print(ans.groups())
# ('a1', 'c3')
print(ans.group(2))
# c3

注意:re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到一个匹配。

在这里插入图片描述

2. re.findall

在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果没有找到匹配的,则返回空列表。
注意: match 和 search 是匹配一次 findall 匹配所有,另外,re.findall返回的是一个列表。
语法格式为:re.findall(pattern, string, flags=0)
函数参数说明:

参数说明
pattern匹配的正则表达式
string待匹配的字符串
import re
ans = re.compile(r'\d+')
print(ans.findall('o1n2m3k4'))
# ['1', '2', '3', '4']

ans2 = re.findall(r'\d+', 'o1n2m3k4')
print(ans2)
# ['1', '2', '3', '4']

3. re.finditer

re.finditer 和 findall 类似,在字符串中找到正则表达式所匹配的所有子串,并把它们作为一个迭代器返回。
语法:re.finditer(pattern, string, flags=0)
函数参数说明:

参数描述
pattern匹配的正则表达式
string要匹配的字符串
flags标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等

在这里插入图片描述

Python中的正则表达式是一种强大的工具,用于在字符串中进行模式匹配和搜索。Python提供了re模块来支持正则表达式操作。 以下是Python中正表达式的一些常用功能和用法: 1. 匹配字符串:使用re.match()函数可以从字符串的起始位置开始匹配一个模式。如果匹配成功,返回一个匹配对象;否则返回None。 2. 搜索字符串:使用re.search()函数可以在整个字符串中搜索匹配一个模式。如果匹配成功,返回一个匹配对象;否则返回None。 3. 查找所有匹配:使用re.findall()函数可以查找字符串中所有匹配一个模式的子串,并返回一个列表。 4. 替换字符串:使用re.sub()函数可以将字符串中匹配一个模式的子串替换为指定的字符串。 5. 切分字符串:使用re.split()函数可以根据一个模式将字符串切分成多个子串,并返回一个列表。 6. 匹配对象的属性和方法:匹配对象具有一些属性和方法,如group()、start()、end()等,可以获取匹配到的子串、匹配子串的起始位置和结束位置等信息。 正则表达式的语法非常灵活,可以用于匹配各种复杂的模式。以下是一些常用的正则表达式元字符: - . :匹配任意字符(除了换行符) - ^ :匹配字符串的起始位置 - $ :匹配字符串的结束位置 - * :匹配前面的字符零次或多次 - + :匹配前面的字符一次或多次 - ? :匹配前面的字符零次或一次 - [] :匹配括号内的任意一个字符 - () :标记一个子表达式的开始和结束位置 - | :匹配两个或多个表达式之一 正则表达式还支持一些特殊的字符类别和转义字符,用于匹配数字、字母、空白字符等特定类型的字符。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值