一、概述
1.1 问题背景
某网站系统实时产生日志信息,记录用户对系统的访问信息,例如:IP地址,用户名称,访问时间,请求和响应信息,其中IP地址信息是表示全国各地用户的访问情况,对IP地址的详细分析,可以了解各个地区对该网站系统访问的活跃度,用以判断该网站公司对区域活动的推广情况和投入成本。本项目为网站运营方向常用技术案例。
1.2 本组完成的任务
- 对日志进行清洗。
- 统计24小时内的访问量Top10。
- 统计该时间段内的PV。
- 统计该时间段内的UV。
- 统计该时间段跳出用户信息
- 将获取到的结果存为本地文件result,并进行了可视化。
1.3 数据下载地址
https://download.youkuaiyun.com/download/zhiyeegao/12251446
二、数据格式分析
所给的数据文件名为access.log。其中每列的内容如下:
第一列:客户端用户的IP地址。
第二列:客户端用户名称,默认为- -。
第三列:客户端访问的时间与时区。例如:[04/Jan/2012:19:57:09 +0800]代表中国东8区2012年1月4号19点57分9秒。
第四列:记录请求的url和http协议。例如:GET /thread-1459739-1-1.html HTTP/1.1
第五列:记录请求状态,成功是200。
第六列:记录发给客户端的字节数。
第七列:记录从哪个页面链接访问过来的。
第八列:记录客户端浏览器相关信息。
三、数据处理