hadoop集群环境搭建

最新推荐文章于 2022-10-24 15:42:40 发布

进步的地方

最新推荐文章于 2022-10-24 15:42:40 发布

阅读量125

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_37882697/article/details/90414251

本文详细介绍了Hadoop集群的搭建过程。首先阐述了基础环境，包括JDK和SSH的安装与配置；接着说明了Host配置；然后讲解了Hadoop的安装、环境变量配置及相关文件修改；最后介绍了运行Hadoop的步骤，如格式化、启动集群和测试，以确保集群搭建成功。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、基础环境

Hadoop是用Java开发的，Hadoop的编译及MapReduce的运行都需要使用JDK。
Hadoop需要通过SSH来启动salve列表中各台主机的守护进程，因此SSH也是必须安装的，即使是安装伪分布式版本(因为Hadoop并没有区分集群式和伪分布式)。对于伪分布式，Hadoop会采用与集群相同的处理方式，即依次序启动文件conf/slaves中记载的主机上的进程，只不过伪分布式中salve为localhost(即为自身)，所以对于伪分布式Hadoop，SSH一样是必须的。
1.1 JDK的安装与配置
1、上传压缩包
我使用的是HDFS工具上传jdk-7u76-linux-x64.tar.gz压缩包

2、解压压缩包到指定目录下
tar -zxvf jdk-7u76-linux-x64.tar.gz -C /root/opt/module

4、配置环境变量
vi /etc/profile

5、重新加载/etc/profile，使配置生效
source /etc/profile
6、查看配置是否生效
echo $PATH
java -version

出现如上信息表示已经配置好了。

二、Host配置
vi /etc/hosts
可以通过hosts来修改服务器名称为master、slave1、slave2

vi /etc/hostname
修改hostname内容为主机名 master

三、Hadoop的安装与配置
使用的是HDFS 上传hadoop-2.7.3tar.gz压缩包到当前路径下，然后使用以下命令将hadoop-2.7.3tar.gz 解压缩到指定目录tar -zxvf hadoop-2.7.1.tar.gz -C /root/opt/module
3.3 配置环境变量
回到根目录，配置hadoop环境变量，命令如下：
vi/etc/profile
在/etc/profile添加如下内容

立刻让hadoop环境变量生效，执行如下命令：
source /etc/profile
再使用hadoop命令，发现可以有提示了，则表示配置生效了。

3.4 Hadoop的配置
进入hadoop-2.7.1的配置目录：
cd /data/hadoop-2.7.1/etc/hadoop
依次修改core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml以及slaves文件。
3.4.1 修改core-site.xml

3.4.2 修改vi hdfs-site.xml

3.4.3 修改vi mapred-site.xml
复制template，生成xml，命令如下：
cp mapred-site.xml.template mapred-site.xml

3.4.4 修改vi yarn-site.xml

3.4.5 修改hadoop-2.7.3/etc/hadoop/slaves
将原来的localhost删除，改成如下内容
vi /data/hadoop-2.7.1/etc/hadoop/slaves
最后如果配置完全分布式集群就将整个hadoop-2.7.1文件夹及其子文件夹使用scp复制到slave1和slave2的相同目录中：
scp -r /root/opt/module/hadoop-2.7.3 root@slave1:/data
scp -r /root/opt/module/hadoop-2.7.3 root@slave2:/data

四、运行Hadoop
4.1 格式化执行命令：hadoop namenode -format
4.2 启动start-all.sh
4.3 查看集群是否启动成功：输入jps