【Python爬虫】MongoDB爬虫实践：爬取虎扑论坛

镰刀韭菜

于 2019-07-10 23:00:27 发布

阅读量997

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习与机器学习文章标签： Python 网络爬虫 MongoDB 爬虫实践数据抓取

本文链接：https://blog.youkuaiyun.com/ARPOSPF/article/details/95386814

103 篇文章 ¥29.90 ¥99.00

订阅专栏

本文介绍了如何使用Python爬虫配合MongoDB抓取虎扑论坛的数据。通过分析网站结构，定位关键信息，实现从第一页到前50页的数据抓取。在抓取过程中，注意到因新回复可能导致的重复数据问题，并采用update方法更新MongoDB中的数据。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MongoDB爬虫实践：爬取虎扑论坛

网站地址为：https://bbs.hupu.com/bxj

首先，定位网页上帖子名称、帖子链接、作者、作者链接、创建时间、回复数目、浏览数目、最后回复用户、最后回复时间等信息的位置，之后，我们使用BeautifulSoup在网页中定位这些。

数据所在的位置
数据	位置
某帖子所有数据	‘li’
帖子名称	div class="titlelink box" > a
帖子链接	div class="titlelink box" > a['href']
作者	div class="author box" > a
作者链接	div class="author box" > a['href']
创建时间	div class="author box&

了解本专栏