1.正则表达式
1.1常用函数
re.search :扫描整个字符串并返回第一个成功的匹配
re.match:从字符串的起始位置匹配
re.findall:全局匹配
1.2常用模式字符串
.:匹配除了换行符之外的任意字符
*:0\1\多次
?:0\1
():模式单元
2.爬取百度贴吧图片
2.1发送请求
以百度贴吧明星吧为例,我们可以看到里面有很多图集,选择殷桃吧,点开后,通过F12打开网页源代码,刷新网页,在Network里找到list连接,headers里的url就是我们需要发送请求的地址。
url = "https://tieba.baidu.com/photo/g/bw/picture/list?kw=%E6%98%8E%E6%98%9F&alt=jview&rn=200&tid=2125319322&pn=1&ps=1&pe=40&info=1&_=1704889234791"
res = requests.get(url)
2.2获取图片地址
在preview里,可以找到图片地址murl。用正则表达式的方式来寻找图片地址。