Pig系统分析(1)-概述

本文探讨了Apache Pig的运行流程,并分析了其在处理、分析大数据方面的优势。通过对PigLatin语言特性的介绍,揭示了Pig相较于Hive在表达能力与灵活性上的优势。同时,本文还讨论了Pig的整体流程及关键组件。

本系列文章分析Pig运行主线流程,目的是借鉴Pig Latin on Hadoop,探索(类)Pig Latin on Spark的可能性。

Pig概述

Apache Pig是Yahoo!为了让研究人员和工程师能够更简单处理、分析和挖掘大数据而发明的。从数据访问的角度来看,可以把YARN当成大数据的操作系统,那么Pig是各种不同类型的数据应用中不可或缺的一员。


尽管Pig的学习成本比Hive要高一些,但是Pig的优点是表达能力和灵活性更胜一筹。如果说用户使用声明式的Hive Hql表达的只是想要什么数据,那么用户使用过程式的Pig Lation,通过一连串的语句组合,能够充分控制数据分析的整个流程。

Pig整体流程



名词解释


名词

解释

备注

Pig Latin

Pig的数据流处理语言

 

Loader/Store

Pig用于加载和存储数据

 

Schema

加载数据时指定的数据格式

Pig的数据类型分为标量和复杂类型,标量基本和Java基本数据类型一致,复杂类型包括Tuple(元组)、Map和Bag(元组的无序集合)

Relation

Pig操作的数据集合

即元组的集合,或者说就是一个Bag(更精确来说外部Bag,因为存在嵌套的内部Bag)

Logical plan

逻辑执行计划

 

Physical plan

物理执行计划

 

Optimizer

优化器

基于规则的逻辑优化器

DAG

Directed Acyclic Graph有向无环图

 



评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值