基于 Apache Pig 的数据分析全解析
1. 运行 Pig
Pig 是一个强大的工具,它能够将用 Pig Latin 编写的语句进行翻译,并在单机的独立模式或分布式模式下的完整 Hadoop 集群中执行。在分布式模式中,Pig 的主要作用是把 Pig Latin 语句转换为 MapReduce 作业,而且无需安装额外的服务或守护进程。它以命令行工具的形式存在,搭配相关的库使用。
Cloudera CDH 附带了 Apache Pig 0.12 版本。当然,也可以从 https://pig.apache.org/releases.html 获取 Pig 的源代码和二进制发行版。
运行 Pig 时,MapReduce 模式需要访问 Hadoop 集群和 HDFS 安装。在命令行提示符下运行 Pig 命令时,MapReduce 模式是默认执行模式。可以使用以下命令执行脚本:
$ pig -f <script>
可以通过命令行使用 -param <param>=<val> 传递参数,示例如下:
$ pig –param input=tweets.txt
参数也能在参数文件中指定,然后使用 -param_file <file> </
超级会员免费看
订阅专栏 解锁全文
57

被折叠的 条评论
为什么被折叠?



