re正则表达式:import re ;re.search()

本文详细介绍了Python中正则表达式的使用方法,包括各种符号的意义及应用场景,如分组匹配、重复匹配等,并提供了实际的例子帮助理解。

http://www.cnblogs.com/alex3714/articles/5161349.html

re模块   

常用正则表达式符号

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
'.'     默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
'^'     匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$'     匹配字符结尾,或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
'*'     匹配*号前的字符0次或多次,re.findall("ab*","cabb3abcbbac")  结果为['abb''ab''a']
'+'     匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab''abb']
'?'     匹配前一个字符1次或0
'{m}'   匹配前一个字符m次
'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb''ab''abb']
'|'     匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配,re.search("(abc){2}a(123|456)c""abcabca456c").group() 结果 abcabca456c
 
 
'\A'    只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的
'\Z'    匹配字符结尾,同$
'\d'    匹配数字0-9
'\D'    匹配非数字
'\w'    匹配[A-Za-z0-9]
'\W'    匹配非[A-Za-z0-9]
's'     匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
 
'(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict("city") 结果{'province''3714''city''81''birthday''1993'}

最常用的匹配语法

1
2
3
4
5
re.match 从头开始匹配
re.search 匹配包含
re.findall 把所有匹配到的字符放到以列表中的元素返回
re.splitall 以匹配到的字符当做列表分隔符
re.sub      匹配字符并替换

反斜杠的困扰
与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\\"表示。同样,匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。2018-06-05

仅需轻轻知道的几个匹配模式

1
2
3
re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法,下同)
re.M(MULTILINE): 多行模式,改变'^''$'的行为(参见上图)
re.S(DOTALL): 点任意匹配模式,改变'.'的行为

转载于:https://www.cnblogs.com/zhangmingda/p/9137898.html

### Python `re` 模块正则表达式应用技巧 #### 使用命名捕获组提高可读性 通过使用命名捕获组可以显著提升正则表达式的可维护性和清晰度。这允许开发者为每一个匹配部分指定有意义的名字而不是仅仅依靠位置索引。 ```python import re pattern = r'(?P<key>password|pwd|pass)[[:space:]]*=[[:space:]]*(?P<value>[[:alpha:]]+)' match = re.search(pattern, 'password = Hello') if match: print(f"Key: {match.group('key')}, Value: {match.group('value')}") # Key: password, Value: Hello ``` 此模式能够识别关键字(如密码、pwd 或者 pass),后面跟随任意数量空白字符以及等于号再接更多空白字符最后是一个由字母组成的字符串[^1]。 #### 非贪婪匹配优化性能 当处理大量文本数据时,默认情况下量词会尽可能多地消耗输入序列中的字符,即贪婪行为;然而,在某些场景下采用非贪婪方式能有效减少不必要的计算开销并加快速度。 ```python text = "<html><body>Hello</body></html>" lazy_match = re.findall(r'<.*?>', text) print(lazy_match) # ['<html>', '<body>', '</body>', '</html>'] ``` 上述例子展示了如何利用问号来实现懒惰匹配从而只获取最短可能的结果集而非整个文档结构。 #### 编译预编译正则表达式对象 对于频繁使用的正则表达式来说,创建一个已编译的对象是非常有益的做法因为它可以在多次调用之间重用而无需每次都重新解析模式串。 ```python compiled_pattern = re.compile(r'\b\d{3}-\d{2}-\d{4}\b') test_strings = ["My SSN is 123-45-6789", "Invalid format like this one"] for string in test_strings: result = compiled_pattern.search(string) if result: print("Found:", result.group()) else: print("Not found.") ``` 这段代码定义了一个用于验证美国社会安全号码格式的正则表达式,并将其预先编译以便高效执行多个搜索操作。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值