pig

本文介绍如何安装和配置 Pig 工具,并通过实例演示 Pig Latin 的基本使用方法,包括数据加载、过滤、分组及聚合等常见操作。

是hadoop 的客户端,相当于 oracle 和plsql

方便不熟悉java的用户

可以排序,过滤,求和,聚组 pig latin 轻量级脚本语言

sql

pig latin

map-reduce

cluster

下载并解压pig
mirror.bjtu.edu.cn/apache/pig

下载完成后解压
配置Linux 系统环境变量
vi ~/.bash_profile
vi /etc/profile
PATH=PATH:/usr/local/pig/pig0.9.2/bin:HOME/bin
JAVA_HOME=/usr (这个一定是java的上级目录不是完成目录)
export PATH
export JAVA_HOME

重新登入使环境变量生效
重启linux shutdown -r now

查看是否生效
set

然后进入grunt shell
pig -x local 进本地模式
pig 两种模式,本地和实际工作mapreduce

配置Pig map-reduce模式
设置path,增加指向hadoop/bin
设置pig_classpath环境变量
修改host文件
启动pig

pig 三种运行方式, 脚本 grunt 嵌入式

grunt shell 命令
-help

copyToLocal
把hadoop的文件拷贝到当前的文件系统

可以执行操作形同的命令,在前面加sh

sh /usr/java/jdk1.7.0_25/bin/jps

pig的数据模型
bag 表 (tuple 组成的集合) 行的结构不固定,,
tuple 行,记录
field 属性
pig 不要求同一个bag里面哥哥tuple 有相同数量或者相同类型的field

pig latin 常用语句
LOAD 指出载入数据的方法
FOREACH 逐行扫描进行某种处理
FILTER 过滤行 (类似where 字句)
DUMP 把结果显示到屏幕
STORE 把结果保存到文件
这里写图片描述

DUMP records
(1950,0,1)

DESCRIBE records

records:{year:chararray,temptyer:int,quality:int}

过滤

filtered_records=FILTER records BY tempter!=9999 AND (quality==0 OR quanlity==1 OR quality ==4 OR quality==5 OR quality==9);

分组

grouped_records=GROUP filtered_records BY year;
DUMP grouped_records

max_temp=FOREACH grouped_records GENERATE group, MAX (filtered_records.temperature)

explain –>显示执行计划

illustrain–>显示一些典型的数据处理过程

LOAD FOREACH STORE 三部曲

A = LOAD './home/1.txt' USING PigStorage('-') AS (id,pw,de); 
B = FOREACH A GENERATE id;
STORE B INTO './home/2.txt' USING PigStorage();
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值