1. 前言
需求:统计每天24小时每个时段的PV和UV的数量
主要使用Hive查询,Sqoop导出到MySQL
PV:Page View 一条url就算一次
UV:Unique View 一个用户只算一次
2. 环境准备
操作系统:虚拟机centos7
软件:CDH版本Hadoop、Hive、Sqoop,MySQL
资源下载:链接:https://pan.baidu.com/s/1lgJkPzJqvzrsCIaLXtuFXg 提取码:g73u
3. 操作步骤
开始之前确保启动了HDFS和Yarn、MySQL
7473 DataNode
7426 NameNode
7526 SecondaryNameNode
7719 JobHistoryServer
7646 NodeManager
7742 Jps
7599 ResourceManager
[fanl@centos7 hive-1.1.0-cdh5.14.2]$
3.1 数据采集
(1)创建新的Hive库"weblogs"
hive (default)> create database weblogs;
OK
Time taken: 6.628 seconds
hive (default)> use weblogs;
OK
Time taken: 0.034 seconds
hive (weblogs)>
(2)创建源表logs_src,此表用于保存所有源数据
create table logs_src(
id string,
url string,
referer string,
keyword str