Pig有两种使用模式:本地模式和MapReduce模式。
Pig进行实际工作的模式是MapReduce模式,使用Pig的MapReduce模式首先需要已经安装好的hadoop集群,关于hadoop集群的搭建在之前已经讲过。
下面就在之前搭建的集群的基础上,安装pig。安装过程如下:
1 下载pig-0.9.0.tar.gz,复制到hadoop集群的master节点的根目录下(pig相当于hadoop的一个客户端,他通过master节点就可以操作集群,因此安装在master节点上即可),使用
tar -zxvf pig-0.9.0.tar.gz解压,然后重命名为pig.操作完成后,目录如下:

2 打开~/.bashrc

3 在该文件尾部添加如下内容:

其中PIG_INSTALL为pig文件所在目录,PIG_HADOOP_VERSION为Hadoop的版本(这里使用在前面已经安装好的hadoop.0.20.2),对于PATH变量,需要添加红线部分的内容$PIG_INSTALL/bin;
4 将HADOOP_HOME/conf文件夹复制到PIG_INSTALL/conf文件夹内:

复制完毕以后PIG_INSTALL/conf文件夹的目录结构如图:

5 打开~/.bashrc

3 在最后添加
export PIG_CLASSPATH=$PIG_INSTALL/conf/conf

4 重启XShell客户端(这是由~/.bashrc文件的性质决定)
5进入pig所在节点,输入pig,出现以下内容说明安装成功

默认情况下,pig把日志文件保存在当前目录下,可以通过修改配置文件来更改日志文件的存放目录。
修改方式如下:在PIG_INSTALL/文件夹中新建logs文件夹:

修改PIG_INSTALL/conf/pig.properties文件中的pig.logfile属性值,如下即可:
Pig.logfile=/home/xuyizhen/pig/logs
本文详细介绍了如何在已搭建的hadoop集群上安装Pig,并配置相关环境,包括下载、解压、环境变量设置、复制配置文件等步骤,确保Pig能够顺利运行于集群中。
35

被折叠的 条评论
为什么被折叠?



