Pig是一个利用mapreduce进行计算的框架。有自己的一套语法Pig latin,可以非常方便的书写计算代码。
1、如何使用Pig?
解压缩之后,修改文件conf/pig.properties,增加两行内容,如下:
fs.default.name=hdfs://hadoop0:9000
mapred.job.tracker=hadoop0:9001
保存退出后,执行bin/pig进行命令行.
2、使用pig完成电信手机号码统计流量例子:
#加载hdfs中的数据
这里的A是别名
A = LOAD '/Kpi' AS (f0:chararray,f1:chararray,f2:chararray,f3:chararray,f4:chararray);
DUMP A; //查看结果A
#过滤A中有用的字段
B = FOREACH A GENERATE f1,f2,f3,f4;
DUMP B; //查看结果B
#对B中的记录按照f1进行分组
C = GROUP B BY f1;
DUMP C; //查看结果C
#对分组后的记录,按照分组字段进行累加
D = FOREACH C GENERATE group , SUM(B.f1),SUM(B.f2),SUM(B.f3);
DUMP D; //查看结果D
#把最后的结果保存到HDFS中
STORE D INTO '/out';
3、以上的Pig命令可以放到一个文件中执行文件内容是如下,执行方式pig kpi.pig
内容如同上面一样。
Name:Xr
Date:2014-04-02 22:44