15、基于 Apache Pig 的数据分析全解析

基于 Apache Pig 的数据分析全解析

1. 运行 Pig

Pig 是一个强大的工具,它能够将用 Pig Latin 编写的语句进行翻译,并在单机的独立模式或分布式模式下的完整 Hadoop 集群中执行。在分布式模式中,Pig 的主要作用是把 Pig Latin 语句转换为 MapReduce 作业,而且无需安装额外的服务或守护进程。它以命令行工具的形式存在,搭配相关的库使用。

Cloudera CDH 附带了 Apache Pig 0.12 版本。当然,也可以从 https://pig.apache.org/releases.html 获取 Pig 的源代码和二进制发行版。

运行 Pig 时,MapReduce 模式需要访问 Hadoop 集群和 HDFS 安装。在命令行提示符下运行 Pig 命令时,MapReduce 模式是默认执行模式。可以使用以下命令执行脚本:

$ pig -f <script>

可以通过命令行使用 -param <param>=<val> 传递参数,示例如下:

$ pig –param input=tweets.txt

参数也能在参数文件中指定,然后使用 -param_file <file> </

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值