spark学习1——配置hadoop 单机模式并运行WordCount实例（ubuntu14.04 & hadoop 2.6.0）

最新推荐文章于 2023-06-01 11:50:29 发布

元气少女wuqh

最新推荐文章于 2023-06-01 11:50:29 发布

阅读量569

点赞数

CC 4.0 BY-SA版权

分类专栏： Big Data

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tsinghuahui/article/details/49933279

Big Data 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍Hadoop单机模式的搭建过程，包括SSH免密登录配置、rsync安装及Hadoop环境变量设置等关键步骤，并演示如何运行自带的WordCount实例。

1. 安装SSH

hadoop是采用SSH进行通信的，此时要设置密码为空，即不需要密码登陆，免去每次登陆时都要输入密码，当集群较大时该步骤显得尤为重要。

$ sudo apt-get install ssh

安装完成后启动服务：

$ /etc/init.d/ssh start

以下命令验证服务是否正常启动：

$ ps -e |grep ssh

设置免密码登陆，生成私钥和公钥：

$ ssh-keygen -t dsa

此时会在～/.ssh中生成两个文件：id_dsa, id_dsa.pub，其中，id_dsa为私钥，id_dsa.pub为公钥，我们将公钥追加到authorized_keys中，因为authorized_keys用于保存所有允许以当前用户身份登陆到ssh客户端用户的公钥内容。

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

登陆ssh：

$ ssh localhost

下图为免密码成功登陆后的结果：

$ exit 退出localhost。

2. 安装rsync

通过以下命令安装或更新rsync:

$ sudo apt-get install rsync

第一，从hadoop官网下载hadoop压缩包，笔者下载的版本为 hadoop-2.6.0.tar.gz，将其解压至/usr/local/下：

$ sudo tar zxvf /home/XXX/Downloads/hadoop-2.6.0.tar.gz -C /usr/local

第二，在hadoop-env.sh配置java安装信息，如下图：

通过gedit 命令修改hadoop-env.sh文件中的JAVA_HOME：

使用source命令使配置生效：（在/usr/local/hadoop-2.6.0/etc/hadoop下）

$ source hadoop-env.sh

为了使我们可以使用hadoop命令，修改 profile文件中的PATH：

$ sudo gedit /etc/profile

如下图：

重启电脑使配置生效。

验证hadoop版本信息：

$ hadoop version

3. 运行hadoop 自带的wordcount实例

$ cd /home/XXX/

$ mkdir hadoop

$ cd hadoop

$ mkdir input

在此目录下创建任意多个文本文件。

$ cd /usr/local/hadoop-2.6.0

$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.6.0-sources.jar org.apache.hadoop.examples.WordCount /home/wuqh/hadoop_wuqh/input /home/wuqh/hadoop_wuqh/output

查看输出结果：

$ cat output/*

至此，单机模式的构建、配置和运行测试彻底成功！

参考文献：《大数据Spark 企业级实战》，电子工业出版社

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。