python: 正则（二）_findall()；search()；finditer()；compile()

最新推荐文章于 2024-01-18 08:00:00 发布

戳苏

最新推荐文章于 2024-01-18 08:00:00 发布

阅读量168

点赞数 2

文章标签： python 信息可视化正则表达式

本文链接：https://blog.youkuaiyun.com/weixin_66118670/article/details/130093353

版权

本文介绍了Python的re模块中findall、search、match和finditer等函数的使用，包括正则表达式的匹配规则和区别，以及编译正则表达式的方法。示例展示了如何提取字符串中的数字子串，并解释了贪婪匹配的概念。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

findall():

请注意看是 find + all 的组合，表示把第二个字符串参数从头到尾搜索一遍，并输出符合第一个字符串参数的内容，以列表的形式输出。

注意区别findall 与 match() 和 search() 的区别。

mstr = '45-83-9-def-38-84-99'
print(re.findall('(\d+)-(\d+)-(\d+)', mstr))
# [('45', '83', '9'), ('38', '84', '99')]

print(re.findall(('\d'), mstr))
# ['4', '5', '8', '3', '9', '3', '8', '8', '4', '9', '9']
# 这个为什么会成功其实我也没说准，加个+看看

print(re.findall(('\d+'), mstr))
# ['45', '83', '9', '38', '84', '99']
# 你说，这妙不妙？ 原来引号放在括号内和括号外是没什么区别的？

print(re.findall('\d+', mstr))
['45', '83', '9', '38', '84', '99']
# 其实可以发现，没有括号也是可以实现的，这里的括号没有放在引号里，就失去了他的作用，不算在字符串内

print(re.findall('(\d+)', mstr))
# ['45', '83', '9', '38', '84', '99']
# 提取数字子串

print(re.findall('(\d+)-(\d+)', mstr))
# [('45', '83'), ('38', '84')]
# 默认两个配对，其中：9-def 匹配失败，于是继续。

search()：

和match相同的地方是：search()也是只进行一次匹配，除非出现贪婪；

和match不同的地方是：search()并不是从头开始就必须匹配的。

a = re.search('\d+', 'ab34nd66r')
print(a)
# <re.Match object; span=(2, 4), match='34'>


b = re.search(r"\d+", 'we98777jjns')
print(b)
# <re.Match object; span=(2, 7), match='98777'>

问题：为什么在正则表达式前面加上r?

答：正则表达式会和反斜杠\产生冲突，因此最好在字符串之前加上'r'；需要注意，r不在引号里。

finditer()：

m5 = re.finditer(r'\d*', '2njt55nji885nj4')
print(m5)
for i in m5:
    print(i)
'''<re.Match object; span=(0, 1), match='2'>
<re.Match object; span=(1, 1), match=''>
<re.Match object; span=(2, 2), match=''>
<re.Match object; span=(3, 3), match=''>
<re.Match object; span=(4, 6), match='55'>
<re.Match object; span=(6, 6), match=''>
<re.Match object; span=(7, 7), match=''>
<re.Match object; span=(8, 8), match=''>
<re.Match object; span=(9, 12), match='885'>
<re.Match object; span=(12, 12), match=''>
<re.Match object; span=(13, 13), match=''>
<re.Match object; span=(14, 15), match='4'>
<re.Match object; span=(15, 15), match=''>

进程已结束,退出代码0
'''

据说finditer()还有别的用法，这里先按下不表。

compile()：

compile的汉译“编译”，其实可以理解为将正则表达式编译，赋值给一个变量。这个变量就代替了原来的正则表达式。

用起来还是很方便的。

p3 = re.compile(r'\d+')
m2 = re.search(p3, 'sjne23n4jn5j566')
print(m2)
# <re.Match object; span=(4, 6), match='23'>

贪婪与非贪婪：

贪婪是什么？首先明确匹配字符串就相当于把符合自己要求的水果放在篮子里，装得越多越好。

http://t.csdn.cn/SooZr

这里直接放一个大佬的链接，可以看看上面这个，很通俗易懂的喔。