hive 之实战统计地区产品点击TOPN

目录

1.数据准备

2.安装sqoop

3.使用sqoop将mysql中数据抽到hive

4.求每个区域点击Top3的产品


1.数据准备

1.1产品信息表,存放在msyql关系型数据库

    

sql脚本百度网盘链接:
链接:https://pan.baidu.com/s/1dT8Rt2L49VMoi6OY3qCE2g
提取码:bhbx

1.2城市信息表,存放在mysql关系型数据库

 

   

sql脚本百度网盘链接:
链接:https://pan.baidu.com/s/1jJHVWTAMDMkpBNndCQxTUQ
提取码:jh2i

1.3用户点击行为信息表,生产中是是日志数据(页面埋点得到),存放在hdfs,为hive表

用户点击日志数据网盘链接:
链接:https://pan.baidu.com/s/1wFXTcQL-_wXEKQT1PM-c3g
提取码:b31w
#创建hive表,并加载数据
create table user_click(
user_id int,
session_id string,
action_time string,
city_id int,
product_id int
) partitioned by (day string)
row format delimited fields terminated by ',';
load data local inpath '/home/hadoop/data/topn/user_click.txt' overwrite into table user_click partition(day='2016-05-05');

2.安装sqoop

2.1sqoop简介

  一个将关系型数据库中的数据高效导入hadoop生态圈的工具。是apache的顶级项目。生产中更倾向使用的Sqoop1的相关版本,sqoop2版本并不好用,与sqoop1不兼容,不适用于生产部署。

  本质是MR的作业。

2.2下载

  我安装的是CDH5.7.0系列的软件,故我下载的是sqoop-1.4.6-cdh5.7.0.tar.gz版本

  下载地址

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值