号外!号外!号外!
喜欢逛贴吧的朋友们,你们的福利来啦!经过本人的一顿操作,我写出了百度贴吧的通用爬虫,只需要输入你想爬取的贴吧名字就可以进行内容的爬取。
- 喜欢校花吗?来咱们一起看一看校花吧的首页吧
看看这忧郁的眼神,瞬间征服了多少宅男的心(手动滑稽)
百度贴吧的请求地址如下:
http://tieba.baidu.com/f?ie=utf-8&kw=校花&fr=search&red_tag=r2338324287
得到要请求的url之后进行胡乱分析(肯定是认真的啦),正如我们所见到的,这个url还是有那么一点点长的。其实啊,里面有一些东西是在我们爬虫里面用不到的,你比如咱们把fr字段和red_tag字段删掉,再请求一哈,肯定也是成功的啦,这时候的请求地址会相对简洁,当然啦,ie字段和对应的内容也是可以删除的。只有kw对应的字段是我们需要的,而kw对应的字段正是我们贴吧的名字。删减后的url地址如下:
http://tieba.baidu.com/f?kw=校花
到了这里你是不是觉得已经完事儿了呢?当然不是!像这么大的吧肯定不止只有一页内容,所以我们来到当前页的底部,清楚的看到有很多页,如下
那点击下一页看看咯,注意注意注意(敲黑板啦),注意看一下当前的url有没有变化。点击下一页之后的url地址:
http://tieba.baidu.com/f?kw=校花&ie=utf-8&pn=50