简介
Hive Streaming类似Hadoop Streaming技术,可以将使用脚本来处理数据,在hadoop streaming中,map/reduce用脚本如shell,python等替代,在hive streaming中,读取数据可以用脚本替代。
例子 MovieLens User Ratings
创建数据表
udata.sql
CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
数据集
- 下载
wget http://files.grouplens.org/datasets/movielens/ml-100k.zip
- 解压
unzip ml-100k.zip