Python笔记（十六）—— 正则表达式_python匹配字符串 compile 规则省略-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_43677689/article/details/104399092

实际上爬虫一共就四个主要步骤：

明确目标 (要知道你准备在哪个范围或者网站去搜索)
爬 (将所有的网站的内容全部爬下来)
取 (去掉对我们没用处的数据)
处理数据（按照我们想要的方式存储和使用

我们在之前实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来。
那么对于文本的过滤或者规则的匹配，强大的就是正则表达式，是Python爬虫世界里必不可少的神兵利器。

什么是正则表达式

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则) 的文本。
正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

举个例子：

我们想要找一篇英文文献里面的所有we的单词

文本：we are well Welcome

正则表达式：we 匹配所有的含有we的但是包括well welcome

正则表达式：\bwe\b 只匹配了we

\b是正则表达式的特殊字符，称为元字符，匹配的是单词的开始和结束，也就是单词的分界处。

有一点需要特别注意的是，正则表达式使用对特殊字符进行转义，所以如果我们要使用原始字符串，只需加一个 r 前缀

path1 = "c:\a\b\c"
print(path1) # c:\c

path2 = "c:\\a\\b\\c"
print(path2) # c:\a\b\c

path3 = r"c:\a\b\c"
print(path3) # c:\a\b\c

Python的re模块

在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。

使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个 Match 对象
使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

compile 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下：

match 方法：从起始位置开始查找，一次匹配
search 方法：从任何位置开始查找，一次匹配
findall 方法：全部匹配，返回列表
finditer 方法：全部匹配，返回迭代器
split 方法：分割字符串，返回列表
sub 方法：替换

我们需要搜索整个字符串，获得所有匹配的结果，使用的是findall()方法 findall 方法的使用形式如下：

findall(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可选参数，指定字符串的起始和终点位置，默认值分别是 0 和 len (字符串长度)。

findall 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。

import re

pattern = re.compile("we")

m = pattern.findall("we work well welcome")

print(m) # ['we', 'we', 'we']

pattern = re.compile(r"\bwe\b")

m2 = pattern.findall("we work well welcome")

print(m2) # ['we']

常见元字符

篇幅所限 -> 点这里

就我来说，正则最好是找一个东西记着，写一个记录下来一个，用的时候再找，而不是死记硬背