基于 Apache Pig 的数据分析指南
1. 运行 Pig
Pig 是一个能将 Pig Latin 语句进行翻译并执行的工具,它有两种运行模式:
- 单机模式 :在单台机器上以独立模式运行。
- 分布式模式 :在完整的 Hadoop 集群上运行。在分布式模式下,Pig 的主要作用是将 Pig Latin 语句转换为 MapReduce 作业,无需安装额外的服务或守护进程,它作为命令行工具结合相关库使用。
Cloudera CDH 附带的是 Apache Pig 0.12 版本,也可以从 https://pig.apache.org/releases.html 获取 Pig 的源代码和二进制发行版。
运行 Pig 脚本时,MapReduce 模式是默认模式,需要访问 Hadoop 集群和 HDFS 安装。执行脚本的命令如下:
$ pig -f <script>
可以通过命令行传递参数,使用 -param <param>=<val> ,示例如下:
$ pig –param input=tweets.txt
也可以在参数文件中指定参数,使用 -pa
超级会员免费看
订阅专栏 解锁全文
961

被折叠的 条评论
为什么被折叠?



