携程问答,马蜂窝,百度知道基于每周四爬取数据量分析

报告分析了百度知道、马蜂窝及携程问答三个站点的爬虫业务数据,重点关注各站点的热词搜索结果、数据差异及发布时间分布。结果显示,百度知道用户需求稳定,携程问答波动大,马蜂窝数据更新率较低。

由于业务需求,10月份上线了新的爬虫业务需求,爬取链接如下:

  • https://zhidao.baidu.com/
  • http://www.mafengwo.cn/wenda/
  • https://you.ctrip.com/asks/

输入相关业务相关热词,抓取对应的问题和答案,问题和答案的内容分析,因涉及公司业务不便分享,现就数据量的分析。
百度知道数据需求:若该热词搜素的结果大于5页,则爬取前5页数据,否则爬取所有数据;
马蜂窝数据需求:若该热词搜素的结果大于60条,则爬取前60条数据,否则爬取所有数据;
携程问答数据需求:同百度知道数据需求;
爬取周期:每周四;

  • 每周不同站点爬取数据量均值分析图如下
    在这里插入图片描述
结论:马蜂窝第一次爬取数据可能存在误差,数据结果集的数量在最后趋于稳定,整体热词得到的搜素结果前100条数据得到保障。
  • 每周四爬取数据差异数据统计分析图
    在这里插入图片描述
结论:携程问答和马蜂窝的差异数据最后渐渐趋于0,得到的数据绝大多数是重复数据,网站针对业务热词的更新率不是很高,百度知道最后数据量趋于平缓,差异数据占总数据的30%左右,这样的网站对我们的业务分析来说是相对有价值的网站。
  • 爬取数据发布时间是近三年的数据量分析图
    在这里插入图片描述
结论:百度知道每年发布问题的用户波动平缓,波动幅度最大的站点是携程问答,业务相关的热词在百度知道站点有稳定的答案需求者。

总结:

就提升业务而言,优先选择的站点可能是百度知道这个站点,当有越来越多的用户提出问题,需要得到这个行业正确的解答时,这个业务的开展是有更大意义的;就业务热词数据量分析来看,当用户有问题需要得到解答时,在携程问答发布问题的用户逐渐减少,在百度知道有一部分相对稳定的用户,是否这部分用户可能成为高价值的客户,还需要建立在不同维度的数据层面进行分析。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值