正则表达式
通常我们使用正则表达式来验证某个字符串是否符合要求。
接下面我们简单讲一下正则表达式的表现形式及意义:
形式 | 含义 |
---|---|
\w | 匹配一个数字/字母 |
\d | 匹配一个数字 |
\s | 匹配一个空格 |
. | 匹配任意一个字符 |
* | 匹配任意个字符(包括0个) |
+ | 匹配任意个字符(大于1一个) |
{n} | n个字符 |
{m, n} | m - n 个字符 |
| | 表示或,匹配前面的内容或后面的内容 |
^ | 表示行的开头 |
$ | 表示行的结尾 |
\ | 转义字符,用于需要匹配特殊字符的情况 |
[ ] | 方括号表示范围 |
根据上面的描述其实已经很容易写出一个正则表达式了,接下来我们来试炼一下。
正则 | 含义 | 可pass | 不可pass |
---|---|---|---|
\d\w | 匹配两个数字,或者开头一个数字加上一个字母 | 33、3w | ww |
\d{3} | 匹配三个数字 | 444 | w42 |
\d{4, 8} | 匹配4到8个数字 | 45245、341351、5143 | 341、145145166 |
\d_ | 匹配一个数字,一个下划线 | 4_ | 44 |
[a-zA-Z\d] | 匹配一个字母或者一个数字 | 4、d | 44、dd |
[a-zA-Z\d]* | 匹配任意个字母或者一个数字(包括0个 ) | ’ ‘、4dadfa | N/A |
[a-zA-Z_$][0-9a-zA-Z]* | 匹配一个以字母或者下划线或者 符号开头的,后面带任意长度的数字/字母的字符串|rda5343、、a、 符 号 开 头 的 , 后 面 带 任 意 长 度 的 数 字 / 字 母 的 字 符 串 | r d a 5343 、 、 a 、 fadfa | dad$、1dadafn | |
\^f | 必须以f开头 | fdfa、f514314、ffat34134 | gfdafatiea 、tdfakfdjakfa |
g |必须以 | 必 须 以 结尾 | fdkafag、3413 fag|dfajkak、fdkajtkea f a g | d f a j k a k 、 f d k a j t k e a |
经过上面的例子、我们基本知道了正则表达式的意义。
接下来看如何在Python中利用正则表达式。
在Python中使用正则
re 模块:re 模块是python提供的包含所有正则表达式相关功能的模块。
regex = r'\d*'
import re
if re.match(regex, '34341'):
print('OK')
代码是不是异常的简单?
在python中使用正则时,re 模块内部会干两件事:
- 编译正则
- 用编译后的正则去做匹配
为了提升效率,我们可以先编译正则表达式,再在后面直接使用。
regex = r'\d*'
import re
reg = re.compile(regex)
if reg.match('34341'):
print('OK')
Python中使用正则来切分字符串
使用正则可以帮助一些方法做到一些原先做不到的事情。比如:
'a b c'.split(' ')
# 输出
> ['a', 'b', ' ', 'c']
上面的情况,我们其实只想要[‘a’, ‘b’, ‘c’],但是有一个空格没有被屏蔽掉,导致出现了 [‘a’, ‘b’, ’ ‘, ‘c’],但是利用正则,我们可以做到这一点。
import re
s = r'\s+'
re.split(s, 'a b c d')
通过匹配大于一个的空格,我们可以成功去除掉所有’ ‘,给我们想要的结果。
注意
我们使用了python的r前缀,这样的话我们就可以不用写转义符。否则我们应该这样写正则。
import re
s = '\\s+'
re.split(s, 'a b c d')
python中使用正则来分组
所谓分组就是提取字符串子串。( ) 中表示的就是想要提取的分组。
比如:
reg = '^(0\d{2})-(\d{8,11})$'
import re
m = re.match(reg, '010-494143891')
if m:
print(m.group(0))
print(m.group(1))
print(m.group(2))
else:
print('Don\'t Match')
输出结果
010-494143891
010
494143891
通过上面的代码,我们根据提供的正则,去匹配字符串,看字符串是否符合标准,如果符合,我们根据group属性打印出需要的部分。
我们注意到以上正则的写法:
reg = '^(0\d{2})-(\d{8-11})$'
根据我们描述过的,我们想要提取的内容是放在 ( ) 中的,也就是说我们会分别匹配 - 符号两边的内容,如果想连 - 也一起匹配,我们可以这样写代码。
import re
reg = '^(0\d{2})(-)(\d{8,11})$'
m = re.match(reg, '010-494143891')
if m:
print(m.group(0))
print(m.group(1))
print(m.group(2))
print(m.group(3))
else:
print('Don\'t Match')
输出结果
010-494143891
010
-
494143891
使用起来也是很简单,而且容易理解。可以更换想要匹配的字符串内容,测试通过和不通过两种情况。需要注意的一点是,由于代码格式的关系,在代码
reg = '^(0\d{2})-(\d{8,11})$'
其中,{8,11}中,数字8和数字11与逗号之间都是不可有空格的,加上空格的话,会导致无法匹配。由于我写代码喜欢在符号后面加上空格,导致我找了挺长时间问题出在哪,有相同习惯的朋友需要注意一下。