史上最全虎扑爬虫,带你看网络爬虫下的步行街

本项目使用SpringBoot和EChart等技术栈,对虎扑步行街的帖子、用户和互动数据进行爬取与分析,展示了从2016年至2018年的用户行为趋势、热点话题、用户分布及性别比例等数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

前言

本项目由 https://blog.youkuaiyun.com/sinat_22767969/article/details/82953774 而来,之前爬过各大高校的百度贴吧,本人也是位小jr,想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的,介于工作太忙没有写帖子,数据截止时间大致在2018年10月6日,也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。

本文作者:陈超允;转载请注明出处

项目

项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。具体的技术栈如下:

GitHub:https://github.com/chenchaoyun0/hpspider,觉得有用给个start哈~

快速启动

(1)克隆项目

git clone https://github.com/chenchaoyun0/hpspider.git

(2)修改数据库连接配置,执行DB初始化脚本,maven构建项目

mvn clean install -DskipTests

(3)启动爬虫

启动项目,访问 http://127.0.0.1:5099/swagger-ui.html ,执行 startSpider (注:若数据库中已有数据必须清空)

(4)配置

#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页,有时候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000

虎扑爬虫数据分析

爬取过程

待程序执行一段时间后,如果你spider.post.size配的太大,则爬取的时间会很长

博主爬的时候配的是10200,放在服务器上面跑,开启爬虫500个线程,落库线程500,爬了有3天~~

帖子总数:120.7万,回复总数:1504.9万,JR(用户)总数:141.9万,下面的数据分析就是用的这些数据进行处理,帖子回复数点亮小于1就忽略掉了。

部分数据截图

 

数据分析

访问 http://127.0.0.1:5099 即可看到一个导航页面

下面做下比较有趣的数据分析与图形化展示

看看大家发帖经常使用的词汇,水平、zt(到底是主题?还是转帖?)、求助、女朋友哈哈,

广东的JR是最多的哈~~~其次是北京,再看看女JR的情况

emmm,这里比较懒,没有做排序,当然,还是广东女JR最多了

同样,性别未知的就是不填性别的,有一半多,再看一张图

实在是可怜~~~~不愧被称为直男一条街咳咳

当前,这里的2018年还没有过完,只是统计到2018年10月国庆期间

通过此图可以看出,JRS在8月份的时候,热情高涨hhh

JR在晚上10点的时候发帖最频繁

JRS在中午11点最活跃哈?

其中有百分之82的人没有填自己的归属主队,再看一张图把未知的去掉后

看图说话~

  •  

原来大部分JR都想当程序员???emmm

哈哈,2018年的热帖里,wyf 出现的也太多了吧

历史来是指,2016~2018的,2015的数据比较少,也比较久远,爬不到了

skr  skr~~

张佳玮先生~~我什么时候能拥有你一半的粉丝。。。

  • 粉丝最多的女JR

 

emmm,这位大哥,竟然有快2亿的访问量。。。。可怕~~

安卓用户和苹果用户不分上下哈~~

2015年是最巅峰的时期啊~~

绿化一条街,竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有,JR们都喜欢发图吧 ~

爱字~~~~看来JRS跟我一样,为情所困,不知道到底选哪个女朋友好,愁死个人了~~~tx

 

 

over!!好累的说!欢迎步行街的猿儿JR给个start

本项目gitHub地址:https://github.com/chenchaoyun0/hpspider

博主邮箱:873692191@qq.com,欢迎JR骚扰与探讨各种奇淫技巧~~

PS:我是一只Java猿儿

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值