正则表达式是对字符串的模糊匹配
正则表达式的特殊字符:
单个字符:
. 点号匹配一个字符,除了\n以外的所有字符都可以匹配,加上re.S可以让点号匹配换行,re.I表示对大小写不敏感
[1-9a-z] 中括号表示匹配里面的一个字符
\d 匹配单个数字,即0-9中的一个
\D 匹配非数字
\s 匹配空白,即空格、tab键、换行都可以匹配
\S 匹配非空白,中文也可以
\w 匹配单词字符,0-9、a-z、A-Z、_、中文也可以
\W 匹配非单词字符
使用正则表达式匹配多个字符
* 匹配前一个字符可以出现0次或无限次,即可有可无
+ 匹配前一个字符可以出现1次或无限次,即最少出现1次
? 匹配前一个字符可以出现0次或1次,即最多出现一次,要么不出现
{m} 匹配前一个字符出现m次,并且只能返回m个字符,如果不足m个字符会报错
{m,} 匹配前一个字符出现m到无限次
{,m} 匹配前一个字符出现0到m次,包括m
{m,n} 匹配前一个字符出现m到n次,并且m要小于n,m和n之间不能有空格,匹配时包括m和n
匹配开头结尾的边界
^ 从字符串开头开始匹配 [^a] 中括号中使用尖括号表示只要不是a
$ 匹配字符串结尾
匹配分组时使用
| 匹配左右任意一个表达式
(ab) 将括号中的字符作为一个分组
(?P<name>) 给分组起别名
re模块的函数
re.match(正则表达式,要匹配的字符串) 从头开始匹配需要的字符串
re.search(正则表达式,要匹配的字符串) 返回第一次找到的字符串
re.sub(正则表达式,需要替换的字符串,要匹配的字符串,要替换的个数(n)) 把所有符合正则表达式的字符替换n次,如果没有替换次数,默认全部替换
re.findall(正则表达式,要匹配的字符串) 返回所有可以匹配成功的字符串,以列表形式返回
re.split(正则表达式,要匹配的字符串,要匹配的次数) 以列表的形式返回切割后的每个字符串
贪婪和非贪婪
Python里正则匹配默认是贪婪的,总是尝试匹配尽可能多的字符;非贪婪则相反,总是尝试匹配尽可能少的字符。在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪
字符串前加r的作用
在字符串前加上r表示原生字符串,不需要进行转义
本文深入解析了正则表达式的特殊字符、匹配规则及re模块的常用函数,包括贪婪与非贪婪匹配的区别,以及如何使用原生字符串避免转义。
4万+

被折叠的 条评论
为什么被折叠?



