Python爬虫基础教程(49)Python Scrapy bs4爬虫实战:获取百度贴吧内容之目标分析:Python爬虫秘籍:轻松攻破百度贴吧,看这篇就够了!

打开百度贴吧,鼠标右键检查,一场奇妙探险就此开始。

一、爬虫目标:我们知道要去哪

本次我们要攻陷的贴吧是《西部世界》吧——一部充满哲学思辨的美剧,贴吧里也是藏龙卧虎。我们的任务很明确:

  • 从网上爬下特定页码的网页
  • 对爬下的页面内容进行简单的筛选分析
  • 找到每一篇帖子的标题、发帖人、日期、楼层、以及跳转链接
  • 将结果保存到文本

简单来说,就是让计算机自动浏览贴吧页面,把我们需要的信息提取出来,保存到本地。 就像雇了一个从不抱怨的小助手,帮你完成复制粘贴的枯燥工作。

二、侦探工作:看透贴吧的小心思

写爬虫就像做侦探,得先仔细观察目标的习惯和规律。

1. 破解URL密码

首先,我们来看贴吧的url地址:https://tieba.baidu.com/f?kw=%E8%A5%BF%E9%83%A8%E4%B8%96%E7%95%8C&ie=utf-8&pn=50

是不是看起来很乱?那一大串认不得的字符其实是“西部世界”的UTF-8编码。在链接的末尾处,&ie=utf-8表示该连接采用的是utf-8编码。

当我们翻到第二页,发现了一个秘密:url末尾多了一个参数&pn=50。继续观察:

  • &pn=0:首页
  • &pn=50:第二页
  • &pn=100:第三页
  • &pn=50*n:第n页

很明显,数字50表示每一页都有50篇帖子。这样我们就能通过简单的url修改,达到翻页的效果了。

2. 使用chrome开发人员工具

要写爬虫,一定要会使用开发工具。虽然这个工具是给前端开发人员用的,但我们可以通过它快速定位要爬取的信息,并找到相对应的规律。

按F12打开chrome开发者工具,使用模拟点击工具(左上角的鼠标箭头图标)快速定位到一个单独帖子的位置。

仔细观察发现,每个帖子的内容都包裹在一个li标签内

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

值引力

持续创作,多谢支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值