Mapr 安装hadoop的组件(九)——安装Pig

本文介绍如何使用Apache Pig进行大规模数据集的并行分析。主要内容包括安装PigLatin环境、配置JAVA_HOME环境变量以及通过一系列PigLatin命令实现MapReduce作业,以计算文件中的单词频率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Apache的猪是通过一个叫PigLatin语言的大型数据集并行分析的平台。有关猪的更多信息,请参见猪项目页面

一旦安装了猪,可执行文件位于:/ opt/mapr/pig/pig- <VERSION> / bin中/猪

确保环境变量JAVA_HOME是否设置正确。例如:

#出口JAVA_HOME = / usr/lib/jvm/java-  -太阳

安装猪

以下过程使用的操作系统软件包管理器,从MAPR存储库下载并安装猪。有关设置生态系统库(包括猪)的说明,请参阅准备包和存储库

如果你想从包文件手动安装此组件,请参阅包和依赖关系为MAPR软件

要在Ubuntu的群集上安装猪:
  1. 执行以下命令以或使用sudo的
  2. 此过程是将一个MAPR集群上执行。如果你还没有安装MAPR,请参见安装指南
  3. 更新可用软件包列表:
    apt-get的更新
  4. 在每个计划的猪节点,安装MAPR猪
    apt-get的安装MAPR猪
到Red Hat或CentOS的群集上安装猪:
  1. 执行以下命令以或使用sudo的
  2. 此过程是将一个MAPR集群上执行。如果你还没有安装MAPR,请参见安装指南
  3. 在每个计划的猪节点,安装MAPR猪
    yum的安装MAPR猪

入门猪

在本教程中,我们将使用0.11版本的猪猪运行计数的单词的文件中的MapReduce作业/中/ constitution.txtMAPR在群集上用户的目录,并将结果存储在文件wordcount.txt

  • 首先,确保你已经下载的文件:在页面的MAPR虚拟机的巡回赛,选择工具>附件,然后右键单击constitution.txt保存它。
  • 请确保该文件被加载到集群中,在目录/用户/ MAPR /中。如果你不知道怎么样,看看NFS上的教程的MAPR虚拟机的巡回赛
打开猪壳,并开始:
  1. 在终端,键入命令来启动猪壳。
  2. 咕噜>提示符下,键入以下命令行(每个后按Enter键):
    A = LOAD  '/用户/ MAPR /在'  使用的TextLoader()AS(词:chararray);
    B = FOREACH a生成FLATTEN(标记化(*));
    C = B组由$  ;
    D = FOREACHÇGENERATE组,COUNT(B);
    商店ÐINTO  '/用户/ MAPR / wordcount的'  ;
    在您输入的最后一行,猪开始一个MapReduce作业来计算该文件的话constitution.txt
  3. 当MapReduce作业完成后,键入退出,退出的猪壳,并看看该目录中的内容/ myvolume / wordcount的看到的结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值