Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能,本实例通过python脚本对电影数据进行清洗,帮助读者了解hive调用python脚本的整个流程。
操作步骤:
1、创建基表
CREATE TABLE u_data (
userid INT, //用户ID
movieid INT, //电影ID
rating INT, //电影评分
unixtime STRING) //时间戳
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t
STORED AS TEXTFILE;
2、加载数据
(1)下载数据源到/home/hadoop/data/目录:
wget http://files.grouplens.org/datasets/movielens/ml-100k.zip
(2)解压:
unzip ml-100k.zip
(3)加载数据:
hive> LOAD DATA LOCAL INPATH '/home/hadoop/workspace/dhp/ml-100k/u.data'
hive> OVERWRITE INTO TABLE u_data;