pig

最新推荐文章于 2024-09-12 22:23:37 发布

原创最新推荐文章于 2024-09-12 22:23:37 发布 · 564 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #pig #脚本语言

随笔同时被 2 个专栏收录

36 篇文章

订阅专栏

hadoop

5 篇文章

订阅专栏

本文介绍如何安装和配置 Pig 工具，并通过实例演示 Pig Latin 的基本使用方法，包括数据加载、过滤、分组及聚合等常见操作。

是hadoop 的客户端,相当于 oracle 和plsql

方便不熟悉java的用户

可以排序,过滤,求和,聚组 pig latin 轻量级脚本语言

sql

pig latin

map-reduce

cluster

下载并解压pig
mirror.bjtu.edu.cn/apache/pig

下载完成后解压
配置Linux 系统环境变量
vi ~/.bash_profile
vi /etc/profile
PATH= $PATH:/usr/local/pig/pig-0.9.2/bin:$ HOME/bin
JAVA_HOME=/usr (这个一定是java的上级目录不是完成目录)
export PATH
export JAVA_HOME

重新登入使环境变量生效
重启linux shutdown -r now

查看是否生效
set

然后进入grunt shell
pig -x local 进本地模式
pig 两种模式,本地和实际工作mapreduce

配置Pig map-reduce模式
设置path,增加指向hadoop/bin
设置pig_classpath环境变量
修改host文件
启动pig

pig 三种运行方式, 脚本 grunt 嵌入式

grunt shell 命令
-help

copyToLocal
把hadoop的文件拷贝到当前的文件系统

可以执行操作形同的命令,在前面加sh

sh /usr/java/jdk1.7.0_25/bin/jps

pig的数据模型
bag 表 (tuple 组成的集合) 行的结构不固定,,
tuple 行,记录
field 属性
pig 不要求同一个bag里面哥哥tuple 有相同数量或者相同类型的field

pig latin 常用语句
LOAD 指出载入数据的方法
FOREACH 逐行扫描进行某种处理
FILTER 过滤行 (类似where 字句)
DUMP 把结果显示到屏幕
STORE 把结果保存到文件
这里写图片描述

DUMP records
(1950,0,1)

DESCRIBE records

records:{year:chararray,temptyer:int,quality:int}

过滤

filtered_records=FILTER records BY tempter!=9999 AND (quality==0 OR quanlity==1 OR quality ==4 OR quality==5 OR quality==9);

分组

grouped_records=GROUP filtered_records BY year;
DUMP grouped_records

max_temp=FOREACH grouped_records GENERATE group, MAX (filtered_records.temperature)

explain –>显示执行计划

illustrain–>显示一些典型的数据处理过程

LOAD FOREACH STORE 三部曲

A = LOAD './home/1.txt' USING PigStorage('-') AS (id,pw,de); 
B = FOREACH A GENERATE id;
STORE B INTO './home/2.txt' USING PigStorage();