正则表达式

最新推荐文章于 2024-08-14 17:27:29 发布

故里顾里

最新推荐文章于 2024-08-14 17:27:29 发布

阅读量154

点赞数 2

分类专栏：爬虫开发

本文链接：https://blog.youkuaiyun.com/m0_47170642/article/details/109061825

版权

爬虫开发专栏收录该内容

11 篇文章

订阅专栏

模式	描述
\w	匹配数字，字母下滑线
\W	匹配不是字母、数字及下划线
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字的字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如果存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结尾，如果存在换行还会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一个字符的开头
$	匹配一个字符串的结尾
.	匹配任意字符除了换行符，当被指定为re.DOTALL时，则可以匹配包括换行符
[…]	用来表示一组字符，单独列出，比如[amk]匹配a、m、k
[^…]	表示不在【】中的字符，比如[^ab]表示除了ab以外的字符
*	表示匹配0个或多个表达式
+	表示匹配1个或多个表达式
？	表示匹配0个或1个前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面正则表达式定
{n,m}	匹配n到m次前面的正则表达式定义的片段，贪婪方式
a\b	匹配a或b
()	匹配包括内的表达式，也表示一个组

import re

content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

结果：

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

二、贪婪与非贪婪

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

结果为：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

以上为贪婪匹配问题，在贪婪匹配下，.* 会匹配尽可能的多的字符。正则表达式中 .* 后面是 \d+，也就是至少一个数字，并没有指定具体多少个数字，因此，.* 就尽可能匹配多的字符，这里就把 123456 匹配了，给 \d + 留下一个可满足条件的数字 7，最后得到的内容就只有数字 7 了。

import re

content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

结果为：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

此时就可以成功获取 1234567 了。原因可想而知，贪婪匹配是尽可能匹配多的字符，非贪婪匹配就是尽可能匹配少的字符。当 .* ? 匹配到 Hello 后面的空白字符时，再往后的字符就是数字了，而 \d + 恰好可以匹配，那么这里 . * ? 就不再进行匹配，交给 \d+ 去匹配后面的数字。所以这样 .*? 匹配了尽可能少的字符，\d+ 的结果就是 1234567 了。