是hadoop 的客户端,相当于 oracle 和plsql
方便不熟悉java的用户
可以排序,过滤,求和,聚组 pig latin 轻量级脚本语言
sql
pig latin
map-reduce
cluster
下载并解压pig
mirror.bjtu.edu.cn/apache/pig
下载完成后解压
配置Linux 系统环境变量
vi ~/.bash_profile
vi /etc/profile
PATH=PATH:/usr/local/pig/pig−0.9.2/bin:HOME/bin
JAVA_HOME=/usr (这个一定是java的上级目录不是完成目录)
export PATH
export JAVA_HOME
重新登入使环境变量生效
重启linux shutdown -r now
查看是否生效
set
然后进入grunt shell
pig -x local 进本地模式
pig 两种模式,本地和实际工作mapreduce
配置Pig map-reduce模式
设置path,增加指向hadoop/bin
设置pig_classpath环境变量
修改host文件
启动pig
pig 三种运行方式, 脚本 grunt 嵌入式
grunt shell 命令
-help
copyToLocal
把hadoop的文件拷贝到当前的文件系统
可以执行操作形同的命令,在前面加sh
sh /usr/java/jdk1.7.0_25/bin/jps
pig的数据模型
bag 表 (tuple 组成的集合) 行的结构不固定,,
tuple 行,记录
field 属性
pig 不要求同一个bag里面哥哥tuple 有相同数量或者相同类型的field
pig latin 常用语句
LOAD 指出载入数据的方法
FOREACH 逐行扫描进行某种处理
FILTER 过滤行 (类似where 字句)
DUMP 把结果显示到屏幕
STORE 把结果保存到文件
DUMP records
(1950,0,1)
DESCRIBE records
records:{year:chararray,temptyer:int,quality:int}
过滤
filtered_records=FILTER records BY tempter!=9999 AND (quality==0 OR quanlity==1 OR quality ==4 OR quality==5 OR quality==9);
分组
grouped_records=GROUP filtered_records BY year;
DUMP grouped_records
max_temp=FOREACH grouped_records GENERATE group, MAX (filtered_records.temperature)
explain –>显示执行计划
illustrain–>显示一些典型的数据处理过程
LOAD FOREACH STORE 三部曲
A = LOAD './home/1.txt' USING PigStorage('-') AS (id,pw,de);
B = FOREACH A GENERATE id;
STORE B INTO './home/2.txt' USING PigStorage();

本文介绍如何安装和配置 Pig 工具,并通过实例演示 Pig Latin 的基本使用方法,包括数据加载、过滤、分组及聚合等常见操作。
2552

被折叠的 条评论
为什么被折叠?



