爬虫随机从优快云博客取得800条用户行为数据,包含用户名、原创博客数、评论数、浏览量,试着从博客数,评论数,浏览量三个方面分析csdn的博主们的形象。
原创博客数
博主们的原创博客数并不是很多,50篇以下的占了70%,0篇的就有35%。我没有想到的是超过100篇原创博客的博主居然有21%,看来养成写博客习惯的人还是很多啊,原创博客超过100,也不是什么特别稀奇的情况。
评论数
有63%的博主评论数少于10,27%的博主评论数大于50。我博客数在21%内,而评论也大于50在27%这个区间内,看来博客数和评论数确实存在正比关系,及博文越多,评论越多。
浏览量
浏览量超过2w的有37%,超过10w的有27%,这数字开起来很大,但联想到有30%的用户博客数过50,所以平均下来,一篇博客应该有2000浏览量,这个可以再之后进行爬取数据做分析。
总结,对于养成写博客习惯的博主来说,他们日积月累下来的博客数量真的很多,浏览量也很多,是评论数并没有很多。看来大家都是多看少评论,可能是太忙了吧。
拉取数据实现
存储格式
用户信息包括用户名,点击量,评论数,原创博客数,使用json文件存储。
[{
"us