Python中使用正则表达式

最新推荐文章于 2024-11-12 22:45:51 发布

原创最新推荐文章于 2024-11-12 22:45:51 发布 · 445 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则 #python中使用正则

Python 专栏收录该内容

8 篇文章

订阅专栏

本文介绍了正则表达式及其在Python中的应用。正则表达式可用于验证字符串是否符合要求。Python的re模块包含所有正则相关功能，使用时内部会进行编译和匹配。还介绍了用正则切分字符串和分组的方法，同时提醒了代码格式注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

- - - - 正则表达式
      - 在Python中使用正则
        Python中使用正则来切分字符串
        python中使用正则来分组

正则表达式

通常我们使用正则表达式来验证某个字符串是否符合要求。
接下面我们简单讲一下正则表达式的表现形式及意义：

形式	含义
\w	匹配一个数字/字母
\d	匹配一个数字
\s	匹配一个空格
.	匹配任意一个字符
*	匹配任意个字符(包括0个)
+	匹配任意个字符(大于1一个)
{n}	n个字符
{m, n}	m - n 个字符
\|	表示或，匹配前面的内容或后面的内容
^	表示行的开头
$	表示行的结尾
\	转义字符，用于需要匹配特殊字符的情况
[ ]	方括号表示范围

根据上面的描述其实已经很容易写出一个正则表达式了，接下来我们来试炼一下。

正则	含义	可pass	不可pass
\d\w	匹配两个数字，或者开头一个数字加上一个字母	33、3w	ww
\d{3}	匹配三个数字	444	w42
\d{4, 8}	匹配4到8个数字	45245、341351、5143	341、145145166
\d_	匹配一个数字，一个下划线	4_	44
[a-zA-Z\d]	匹配一个字母或者一个数字	4、d	44、dd
[a-zA-Z\d]*	匹配任意个字母或者一个数字(包括0个 )	’ ‘、4dadfa	N/A
[a-zA-Z_$][0-9a-zA-Z]*	匹配一个以字母或者下划线或者 $符号开头的，后面带任意长度的数字/字母的字符串 \| _rda5343、 _ 、a、$ fadfa	dad$、1dadafn
\^f	必须以f开头	fdfa、f514314、ffat34134	gfdafatiea 、tdfakfdjakfa
g $\| 必须以$ 结尾	fdkafag、3413 $fag \| dfajkak、fdkajtkea$

经过上面的例子、我们基本知道了正则表达式的意义。

接下来看如何在Python中利用正则表达式。

在Python中使用正则

re 模块：re 模块是python提供的包含所有正则表达式相关功能的模块。

regex = r'\d*'

import re

if re.match(regex, '34341')：
    print('OK')

代码是不是异常的简单？

在python中使用正则时，re 模块内部会干两件事：

编译正则
用编译后的正则去做匹配

为了提升效率，我们可以先编译正则表达式，再在后面直接使用。

regex = r'\d*'

import re

reg = re.compile(regex)
if reg.match('34341'):
    print('OK')

Python中使用正则来切分字符串

使用正则可以帮助一些方法做到一些原先做不到的事情。比如：

'a b  c'.split(' ')

# 输出
> ['a', 'b', ' ', 'c']

上面的情况，我们其实只想要[‘a’, ‘b’, ‘c’]，但是有一个空格没有被屏蔽掉，导致出现了 [‘a’, ‘b’, ’ ‘, ‘c’]，但是利用正则，我们可以做到这一点。

import re


s = r'\s+'
re.split(s, 'a b  c  d')

通过匹配大于一个的空格，我们可以成功去除掉所有’ ‘，给我们想要的结果。

注意

我们使用了python的r前缀，这样的话我们就可以不用写转义符。否则我们应该这样写正则。

import re


s = '\\s+'
re.split(s, 'a b  c   d')

python中使用正则来分组

所谓分组就是提取字符串子串。( ) 中表示的就是想要提取的分组。

比如：

reg = '^(0\d{2})-(\d{8,11})$'

import re
m = re.match(reg, '010-494143891')

if m:
    print(m.group(0))
    print(m.group(1))
    print(m.group(2))
else:
    print('Don\'t Match')

输出结果

010-494143891
010
494143891

通过上面的代码，我们根据提供的正则，去匹配字符串，看字符串是否符合标准，如果符合，我们根据group属性打印出需要的部分。
我们注意到以上正则的写法：

reg = '^(0\d{2})-(\d{8-11})$'

根据我们描述过的，我们想要提取的内容是放在 ( ) 中的，也就是说我们会分别匹配 - 符号两边的内容，如果想连 - 也一起匹配，我们可以这样写代码。

import re

reg = '^(0\d{2})(-)(\d{8,11})$'

m = re.match(reg, '010-494143891')

if m:
    print(m.group(0))
    print(m.group(1))
    print(m.group(2))
    print(m.group(3))
else:
    print('Don\'t Match')

输出结果