python爬取百度贴吧每个帖子里面的图片

本文介绍使用正则表达式实现简单爬虫,以百度美女吧为例,爬取贴吧内所有帖子,并下载首页各楼层发布的图片到本地。分析了贴吧URL规律,指出每页有50个帖子,pn值以每页50递增,第page页的pn值为(page - 1) * 50。

现在我们用正则来做一个简单的爬虫,我们尝试爬取某个百度贴吧里面的所有帖子,并且将这个帖子里首页每个楼层发布的图片下载到本地。

分析:以美女吧为例

  第一页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=0

  第二页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=50

  第三页:https://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&pn=100

  ……

可以发现,url地址中pn及其前面的部分是相同的,改变的只是pn后面的值

不难发现,每页中共有50个帖子,所有pn的值是以每页50的值递增。

则第page页的pn值为:(page - 1) * 50

而kw=%E7%BE%8E%E5%A5%B3为urllib.parse.urlencode{"kw":"美女"}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值