上次,我们用requests 和 xpath爬取了极客学院的课程,感觉还是不过瘾,今天我们再来爬一下百度贴吧妈妈吧里面的话题,看看妈妈们都喜欢讨论什么吧!
爬取前我们先看一下我们的目标:
1.抓取百度贴吧妈妈吧的话题
2.抓取每一个话题的发布人、发布时间、发布标题、发布内容和回贴数目
本文介绍如何使用Python爬虫抓取百度贴吧妈妈吧中的话题,包括发布人、发布时间、标题、内容和回帖数。通过确定URL、Requests库下载网页、XPath解析网页以及实现面向对象的完整代码来实现爬取。
上次,我们用requests 和 xpath爬取了极客学院的课程,感觉还是不过瘾,今天我们再来爬一下百度贴吧妈妈吧里面的话题,看看妈妈们都喜欢讨论什么吧!
爬取前我们先看一下我们的目标:
1.抓取百度贴吧妈妈吧的话题
2.抓取每一个话题的发布人、发布时间、发布标题、发布内容和回贴数目

被折叠的 条评论
为什么被折叠?