Hive案例:根据日志统计某网站每天每小时的PV和UV流量

本文介绍了如何利用Hive进行日志数据统计,包括数据采集、导入Hive进行PV和UV计算,以及使用Sqoop将结果导出到MySQL的过程。主要涉及Hive库和表的创建、数据分区、Shell操作以及 Sqoop 数据迁移。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 前言

需求:统计每天24小时每个时段的PV和UV的数量

主要使用Hive查询,Sqoop导出到MySQL

PV:Page View 一条url就算一次
UV:Unique View 一个用户只算一次

2. 环境准备

操作系统:虚拟机centos7

软件:CDH版本Hadoop、Hive、Sqoop,MySQL

资源下载:链接:https://pan.baidu.com/s/1lgJkPzJqvzrsCIaLXtuFXg  提取码:g73u 

3. 操作步骤

开始之前确保启动了HDFS和Yarn、MySQL

7473 DataNode
7426 NameNode
7526 SecondaryNameNode
7719 JobHistoryServer
7646 NodeManager
7742 Jps
7599 ResourceManager
[fanl@centos7 hive-1.1.0-cdh5.14.2]$ 

3.1 数据采集

(1)创建新的Hive库"weblogs"

hive (default)> create database weblogs;
OK
Time taken: 6.628 seconds
hive (default)> use weblogs;
OK
Time taken: 0.034 seconds
hive (weblogs)> 

 (2)创建源表logs_src,此表用于保存所有源数据

create table logs_src(
id  string,
url string,
referer string,
keyword str
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值