目录
1.数据准备
1.1产品信息表,存放在msyql关系型数据库
sql脚本百度网盘链接:
链接:https://pan.baidu.com/s/1dT8Rt2L49VMoi6OY3qCE2g
提取码:bhbx
1.2城市信息表,存放在mysql关系型数据库
sql脚本百度网盘链接:
链接:https://pan.baidu.com/s/1jJHVWTAMDMkpBNndCQxTUQ
提取码:jh2i
1.3用户点击行为信息表,生产中是是日志数据(页面埋点得到),存放在hdfs,为hive表
用户点击日志数据网盘链接:
链接:https://pan.baidu.com/s/1wFXTcQL-_wXEKQT1PM-c3g
提取码:b31w
#创建hive表,并加载数据
create table user_click(
user_id int,
session_id string,
action_time string,
city_id int,
product_id int
) partitioned by (day string)
row format delimited fields terminated by ',';
load data local inpath '/home/hadoop/data/topn/user_click.txt' overwrite into table user_click partition(day='2016-05-05');
2.安装sqoop
2.1sqoop简介
一个将关系型数据库中的数据高效导入hadoop生态圈的工具。是apache的顶级项目。生产中更倾向使用的Sqoop1的相关版本,sqoop2版本并不好用,与sqoop1不兼容,不适用于生产部署。
本质是MR的作业。
2.2下载
我安装的是CDH5.7.0系列的软件,故我下载的是sqoop-1.4.6-cdh5.7.0.tar.gz版本
下载地址