MongoDB爬虫实践:爬取虎扑论坛
网站地址为:https://bbs.hupu.com/bxj
1.网站分析
首先,定位网页上帖子名称、帖子链接、作者、作者链接、创建时间、回复数目、浏览数目、最后回复用户、最后回复时间等信息的位置,之后,我们使用BeautifulSoup在网页中定位这些。
数据 | 位置 |
---|---|
某帖子所有数据 | ‘li’ |
帖子名称 | div class="titlelink box" > a |
帖子链接 | div class="titlelink box" > a['href'] |
作者 | div class="author box" > a |
作者链接 | div class="author box" > a['href'] |
创建时间 | div class="author box& |