python基础——正则表达式

最新推荐文章于 2024-12-08 17:13:32 发布

原创最新推荐文章于 2024-12-08 17:13:32 发布 · 118 阅读

0 ·

CC 4.0 BY-SA版权

本文深入解析了正则表达式的特殊字符、匹配规则及re模块的常用函数，包括贪婪与非贪婪匹配的区别，以及如何使用原生字符串避免转义。

正则表达式是对字符串的模糊匹配

正则表达式的特殊字符：

单个字符：

. 点号匹配一个字符，除了\n以外的所有字符都可以匹配，加上re.S可以让点号匹配换行，re.I表示对大小写不敏感
[1-9a-z] 中括号表示匹配里面的一个字符
\d 匹配单个数字，即0-9中的一个
\D 匹配非数字
\s 匹配空白，即空格、tab键、换行都可以匹配
\S 匹配非空白，中文也可以
\w 匹配单词字符，0-9、a-z、A-Z、_、中文也可以
\W 匹配非单词字符

使用正则表达式匹配多个字符

* 匹配前一个字符可以出现0次或无限次，即可有可无
+ 匹配前一个字符可以出现1次或无限次，即最少出现1次
? 匹配前一个字符可以出现0次或1次，即最多出现一次，要么不出现
{m} 匹配前一个字符出现m次，并且只能返回m个字符，如果不足m个字符会报错
{m,} 匹配前一个字符出现m到无限次
{,m} 匹配前一个字符出现0到m次，包括m
{m,n} 匹配前一个字符出现m到n次，并且m要小于n，m和n之间不能有空格，匹配时包括m和n

匹配开头结尾的边界

^ 从字符串开头开始匹配 [^a] 中括号中使用尖括号表示只要不是a
$ 匹配字符串结尾

匹配分组时使用

| 匹配左右任意一个表达式
(ab) 将括号中的字符作为一个分组
(?P<name>) 给分组起别名

re模块的函数

re.match(正则表达式，要匹配的字符串) 从头开始匹配需要的字符串
re.search(正则表达式，要匹配的字符串) 返回第一次找到的字符串
re.sub(正则表达式，需要替换的字符串，要匹配的字符串，要替换的个数(n)) 把所有符合正则表达式的字符替换n次，如果没有替换次数，默认全部替换
re.findall(正则表达式，要匹配的字符串) 返回所有可以匹配成功的字符串，以列表形式返回
re.split(正则表达式，要匹配的字符串，要匹配的次数) 以列表的形式返回切割后的每个字符串