正则表达式

模式描述
\w匹配数字,字母下滑线
\W匹配不是字母、数字及下划线
\s匹配任意空白字符,等价于[\t\n\r\f]
\S匹配任意非空字符
\d匹配任意数字,等价于[0-9]
\D匹配任意非数字的字符
\A匹配字符串开头
\Z匹配字符串结尾,如果存在换行,只匹配到换行前的结束字符串
\z匹配字符串结尾,如果存在换行还会匹配换行符
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配一个字符的开头
$匹配一个字符串的结尾
.匹配任意字符除了换行符,当被指定为re.DOTALL时,则可以匹配包括换行符
[…]用来表示一组字符,单独列出,比如[amk]匹配a、m、k
[^…]表示不在【】中的字符,比如[^ab]表示除了ab以外的字符
*表示匹配0个或多个表达式
+表示匹配1个或多个表达式
表示匹配0个或1个前面的正则表达式定义的片段,非贪婪方式
{n}精确匹配n个前面正则表达式定
{n,m}匹配n到m次前面的正则表达式定义的片段,贪婪方式
a\b匹配a或b
()匹配包括内的表达式,也表示一个组
import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

结果:

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

二、贪婪与非贪婪

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

结果为:

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

以上为贪婪匹配问题,在贪婪匹配下,.* 会匹配尽可能的多的字符。正则表达式中 .* 后面是 \d+,也就是至少一个数字,并没有指定具体多少个数字,因此,.* 就尽可能匹配多的字符,这里就把 123456 匹配了,给 \d + 留下一个可满足条件的数字 7,最后得到的内容就只有数字 7 了。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

结果为:

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

此时就可以成功获取 1234567 了。原因可想而知,贪婪匹配是尽可能匹配多的字符,非贪婪匹配就是尽可能匹配少的字符。当 .* ? 匹配到 Hello 后面的空白字符时,再往后的字符就是数字了,而 \d + 恰好可以匹配,那么这里 . * ? 就不再进行匹配,交给 \d+ 去匹配后面的数字。所以这样 .*? 匹配了尽可能少的字符,\d+ 的结果就是 1234567 了。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值