python中使用正则

最新推荐文章于 2024-11-12 22:45:51 发布

原创最新推荐文章于 2024-11-12 22:45:51 发布 · 1.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #正则 #搜索 #最小匹配

python 专栏收录该内容

4 篇文章

订阅专栏

先import re

匹配：

re.match(r’\d’,’a123’,re.I)

从头开始匹配，如果从头开始不符合就不会往后搜索，则此例匹配无结果,只匹配一个。

例：

 * re.match(r'Hello','Hello,world!',re.I)
 #返回hello
 * re.match(r'world','Hello,world!',re.I)
 #返回None

参数一：是正则表达式,前面的r是防止\转义的，想详细了解的点我
参数二:是被搜索的文本
参数三:是匹配模式，文章最后有参数列表

返回:匹配不到返回None，匹配成功返回object，其方法group（）返回匹配到的字符串

匹配规则里如果有括号的话就会分组输出。
例：t=re.search(r’(\d+)-(\d+)’,‘2004-959-559’)
>>> t.group()
‘2004-959’
>>> t.group(0)
‘2004-959’
>>> t.group(1) #一定哟啊注意1的时候才是子串
‘2004’
>>> t.group(2)
‘959’
而吧匹配规则改成r’\d+-\d+’的话再输出t.group(1)就会报错。

搜索：

re.search(r’\d’,’123’,re.I)

扫描整个字符串，直到找到一个匹配的,只匹配到一个就结束，匹配不到也结束。

例：

re.search(r'Hello','Hello,world! Hello,world!',re.I)
#返回hello
re.search(r'world','Hello,world! Hello,world!',re.I)
#返回world

和上面的函数就是搜索方式不一样，参数和输出都一样，

搜索全部：

t=re.findall(r’\d+’,’1-2-3-4’)

以list方式返回所有搜索到的结果
>>> t
[‘1’, ‘2’, ‘3’, ‘4’]
>>> t[0]
‘1’

替换：

num=’2004-959-559 # this is a phone numbe’

num=re.sub(r’#.*$’,”“,num)

参数一 正则表达式
参数二 string替换下来搜索到的文本
参数三 被搜索替换的原文本

返回类型 list
注意前面一定要写一个变量存放替换结果
运行后num=’2004-959-559 ‘

最小匹配：

就是匹配尽可能少的东西
这里是正则表达式里的技巧，当时吃过亏，记在这里。

例：

re.match(r'<.*>',"<a id='big'>my name is LiuJiJiang</a>",re.I)
#返回<a id='big'>my name is LiuJiJiang</a>
re.match(r'<.*?>',"<a id='big'>my name is LiuJiJiang</a>",re.I)
#返回<a id='big'>

就是在.*后加一个? 就可以了。

修饰符

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响 ^ 和 $
re.S	使 . 匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。