1.正则表达式
1.1常用函数
re.search :扫描整个字符串并返回第一个成功的匹配
re.match:从字符串的起始位置匹配
re.findall:全局匹配
1.2常用模式字符串
.:匹配除了换行符之外的任意字符
*:0\1\多次
?:0\1
():模式单元
2.爬取百度贴吧图片
2.1发送请求
以百度贴吧明星吧为例,我们可以看到里面有很多图集,选择殷桃吧,点开后,通过F12打开网页源代码,刷新网页,在Network里找到list连接,headers里的url就是我们需要发送请求的地址。

url = "https://tieba.baidu.com/photo/g/bw/picture/list?kw=%E6%98%8E%E6%98%9F&alt=jview&rn=200&tid=2125319322&pn=1&ps=1&pe=40&info=1&_=1704889234791"
res = requests.get(url)
2.2获取图片地址
在preview里,可以找到图片地址murl。用正则表达式的方式来寻找图片地址。

pat= '"murl":"(.*?)"'
rst = re.findall(pat,res.text)
print(rst)
2.3保存图片
x=1
for imageUrl in rst:
imageres=requests.get(imageUrl)
imageNmae='tieba/'+str(x)+'.jpg'
with open(imageNmae,'wb') as picObject:
picObject.write(imageres.content)
x+=1
本文介绍了如何使用Python的正则表达式和requests库爬取百度贴吧的图片,包括发送请求、解析图片地址并保存到本地的过程。
515

被折叠的 条评论
为什么被折叠?



