打开百度贴吧,鼠标右键检查,一场奇妙探险就此开始。
一、爬虫目标:我们知道要去哪
本次我们要攻陷的贴吧是《西部世界》吧——一部充满哲学思辨的美剧,贴吧里也是藏龙卧虎。我们的任务很明确:
- 从网上爬下特定页码的网页
- 对爬下的页面内容进行简单的筛选分析
- 找到每一篇帖子的标题、发帖人、日期、楼层、以及跳转链接
- 将结果保存到文本
简单来说,就是让计算机自动浏览贴吧页面,把我们需要的信息提取出来,保存到本地。 就像雇了一个从不抱怨的小助手,帮你完成复制粘贴的枯燥工作。
二、侦探工作:看透贴吧的小心思
写爬虫就像做侦探,得先仔细观察目标的习惯和规律。
1. 破解URL密码
首先,我们来看贴吧的url地址:https://tieba.baidu.com/f?kw=%E8%A5%BF%E9%83%A8%E4%B8%96%E7%95%8C&ie=utf-8&pn=50
是不是看起来很乱?那一大串认不得的字符其实是“西部世界”的UTF-8编码。在链接的末尾处,&ie=utf-8表示该连接采用的是utf-8编码。
当我们翻到第二页,发现了一个秘密:url末尾多了一个参数&pn=50。继续观察:
- &pn=0:首页
- &pn=50:第二页
- &pn=100:第三页
- &pn=50*n:第n页
很明显,数字50表示每一页都有50篇帖子。这样我们就能通过简单的url修改,达到翻页的效果了。
2. 使用chrome开发人员工具
要写爬虫,一定要会使用开发工具。虽然这个工具是给前端开发人员用的,但我们可以通过它快速定位要爬取的信息,并找到相对应的规律。
按F12打开chrome开发者工具,使用模拟点击工具(左上角的鼠标箭头图标)快速定位到一个单独帖子的位置。
仔细观察发现,每个帖子的内容都包裹在一个li标签内

最低0.47元/天 解锁文章
356

被折叠的 条评论
为什么被折叠?



