【正则表达式】

最新推荐文章于 2023-12-05 16:25:27 发布

原创最新推荐文章于 2023-12-05 16:25:27 发布 · 1.2k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python #开发语言 #编辑器

正则表达式

正则表达式是一个特殊的字符序列，它能帮助你方便的检查一个字符串是否与某种模式匹配。

正则表达式的应用

正则表达式是一门独立的语言专门用来匹配、校验、筛查所需的数据

正则表达式之字符组

字符组	描述
[0123456789]	匹配0到9之间的任意一个数字
[0-9]	匹配0到9之间的任意一个数字
[a-z]	匹配a到z之间的任意一个小写字母
[A-Z]	匹配A到Z之间的任意一个大写字母
[0-9a-zA-Z]	匹配任意一个数字或者大小写字母(没有顺序)

正则表达式之元字符

实例	描述
.	匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符，请使用象 ‘[.\n]’ 的模式。
^	匹配字符串的开头
$	匹配输入字符串的结束位置
*	匹配前面的子表达式零次或多次
+	匹配前面的子表达式一次或多次。
?	匹配前面的子表达式零次或一次
{n}	n 是一个非负整数。匹配确定的 n 次。
{n,}	n 是一个非负整数。至少匹配n 次
{n,m}	m 和 n 均为非负整数，其中n <= m。最少匹配 n 次且最多匹配 m 次
?	当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时，匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串，而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如，对于字符串 “oooo”，‘o+?’ 将匹配单个 “o”，而 ‘o+’ 将匹配所有 ‘o’。
x	y
[xyz]	字符集合。匹配所包含的任意一个字符
[a-z]	字符范围。匹配指定范围内的任意字符。
[^a-z]	负值字符范围。匹配任何不在指定范围内的任意字符。
\d	匹配一个数字字符。等价于 [0-9]。
\D	匹配一个非数字字符。等价于 [^0-9]。
\f	匹配一个换页符
\n	匹配一个换行符。
\r	匹配一个回车符。
\s	匹配任何空白字符，包括空格、制表符、换页符等等。
\S	匹配任何非空白字符
\t	匹配一个制表符。
\w	匹配字母、数字、下划线。
\W	匹配非字母、数字、下划线。

正则表达式之取消转义

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成 ‘\\’。

在python中，无论是正则表达式，还是待匹配的内容，都是以字符串的形式出现的，在字符串中\也有特殊的含义，本身还需要转义。所以如果匹配一次"\n",字符串中要写成’\\n’，那么正则里就要写成"\\\n",这样就太麻烦了。这个时候我们就用到了r’\n’这个概念，此时的正则是r’\\n’就可以了。

正则	待匹配字符	结果	说明
\n	\n	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配
\\n	\n	True	转义\之后变成 \\，即可匹配
“\\\n”	‘\\n’	True	如果在python中，字符串中的’\‘也需要转义，所以每一个字符串’\'又需要转义一次
r’\\n’	r’\n’	True	在字符串之前加r，让整个字符串不转义

贪婪模式与非贪婪模式

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

正则	待匹配字符	匹配结果	说明
<.*>	<script>…<script>	<script>…<script>	默认为贪婪匹配模式，会匹配尽量长的字符串
<.*?>	r’\d’	<script><script>	加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

几个常用的非贪婪匹配Pattern

*? 重复任意次，但尽可能少重复
+? 重复1次或更多次，但尽可能少重复
?? 重复0次或1次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少重复
{n,}? 重复n次以上，但尽可能少重复

.*?的用法:

. 是任意字符
* 是取 0 至 无限长度
? 是非贪婪模式。
何在一起就是 取尽量少的任意字符，一般不会这么单独写，他大多用在：
.*?x
就是取前面任意长度的字符，直到一个x出现

就是取前面任意长度的字符，直到一个x出现

re模块

在python中无法直接使用正则需要借助于模块

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match() 就返回 none。
语法结构：

re.match(pattern, string, flags=0)

pattern：匹配的正则表达式
string：要匹配的字符串。
flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等

import re
 
line = "Cats are smarter than dogs";
 
matchObj = re.match( r'dogs', line, re.M|re.I)
if matchObj:
   print "match --> matchObj.group() : ", matchObj.group()
else:
   print "No match!!"
 
matchObj = re.search( r'dogs', line, re.M|re.I)
if matchObj:
   print "search --> searchObj.group() : ", matchObj.group()
else:
   print "No match!!"

结果：

No match!!
search --> searchObj.group() :  dogs

匹配成功 re.match 方法返回一个匹配的对象，否则返回 None。
参数说明：

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。
函数语法：

re.search(pattern, string, flags=0)

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

re.match与re.search的区别
re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

re.compile 函数

compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

语法格式为：

re.compile(pattern[, flags])

参数：

pattern : 一个字符串形式的正则表达式

flags : 可选，表示匹配模式，比如忽略大小写，多行模式等，具体参数为：

re.I 忽略大小写
re.L 表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境
re.M 多行模式
re.S 即为 . 并且包括换行符在内的任意字符（. 不包括换行符）
re.U 表示特殊字符集 \w, \W, \b, \B, \d, \D, \s, \S 依赖于 Unicode 字符属性数据库
re.X 为了增加可读性，忽略空格和 # 后面的注释

re.findall函数

在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，则返回元组列表，如果没有找到匹配的，则返回空列表。

注意： match 和 search 是匹配一次 findall 匹配所有。