python爬取百度贴吧图片

本文介绍了如何使用Python的正则表达式和requests库爬取百度贴吧的图片,包括发送请求、解析图片地址并保存到本地的过程。

1.正则表达式

1.1常用函数

re.search :扫描整个字符串并返回第一个成功的匹配

re.match:从字符串的起始位置匹配

re.findall:全局匹配

1.2常用模式字符串

.:匹配除了换行符之外的任意字符

*:0\1\多次

?:0\1

():模式单元

2.爬取百度贴吧图片

2.1发送请求

        以百度贴吧明星吧为例,我们可以看到里面有很多图集,选择殷桃吧,点开后,通过F12打开网页源代码,刷新网页,在Network里找到list连接,headers里的url就是我们需要发送请求的地址。

url = "https://tieba.baidu.com/photo/g/bw/picture/list?kw=%E6%98%8E%E6%98%9F&alt=jview&rn=200&tid=2125319322&pn=1&ps=1&pe=40&info=1&_=1704889234791"
res = requests.get(url)

2.2获取图片地址

        在preview里,可以找到图片地址murl。用正则表达式的方式来寻找图片地址。

pat= '"murl":"(.*?)"'
rst = re.findall(pat,res.text)
print(rst)

2.3保存图片

x=1
for imageUrl in rst:
    imageres=requests.get(imageUrl)
    imageNmae='tieba/'+str(x)+'.jpg'
    with open(imageNmae,'wb') as picObject:
        picObject.write(imageres.content)
    x+=1
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值