Spark流计算课程设计----帮助新手入门实践

一、概述

1.1 问题背景

某网站系统实时产生日志信息,记录用户对系统的访问信息,例如:IP地址,用户名称,访问时间,请求和响应信息,其中IP地址信息是表示全国各地用户的访问情况,对IP地址的详细分析,可以了解各个地区对该网站系统访问的活跃度,用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。

1.2 本组完成的任务

  1. 对日志进行清洗。
  2. 统计24小时内的访问量Top10。
  3. 统计该时间段内的PV。
  4. 统计该时间段内的UV。
  5. 统计该时间段跳出用户信息
  6. 将获取到的结果存为本地文件result,并进行了可视化。

1.3 数据下载地址

https://download.youkuaiyun.com/download/zhiyeegao/12251446

 

二、数据格式分析

所给的数据文件名为access.log。其中每列的内容如下:

第一列:客户端用户的IP地址。

第二列:客户端用户名称,默认为- -。

第三列:客户端访问的时间与时区。例如:[04/Jan/2012:19:57:09 +0800]代表中国东8区2012年1月4号19点57分9秒。

第四列:记录请求的url和http协议。例如:GET /thread-1459739-1-1.html HTTP/1.1

第五列:记录请求状态,成功是200。

第六列:记录发给客户端的字节数。

第七列:记录从哪个页面链接访问过来的。

第八列:记录客户端浏览器相关信息。

三、数据处理

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值