Hive调用python脚本

Hive的 TRANSFORM 关键字提供了在SQL中调用自写脚本的功能,本实例通过python脚本对电影数据进行清洗,帮助读者了解hive调用python脚本的整个流程。

操作步骤:

1、创建基表

CREATE TABLE u_data (
      userid INT,   //用户ID
      movieid INT,  //电影ID
      rating INT,    //电影评分
      unixtime STRING) //时间戳
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '\t
    STORED AS TEXTFILE;

2、加载数据

(1)下载数据源到/home/hadoop/data/目录:

wget http://files.grouplens.org/datasets/movielens/ml-100k.zip

(2)解压:

unzip ml-100k.zip

(3)加载数据:

hive> LOAD DATA LOCAL INPATH '/home/hadoop/workspace/dhp/ml-100k/u.data' 
hive> OVERWRITE INTO TABLE u_data;

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值