Hadoop伪分布式集群搭建

最新推荐文章于 2025-08-16 11:46:42 发布

weixin_33785108

最新推荐文章于 2025-08-16 11:46:42 发布

阅读量87

点赞数

CC 4.0 BY-SA版权

文章标签：大数据开发工具 java

原文链接：https://segmentfault.com/a/1190000012484353

本文详细介绍了如何下载并安装 Hadoop 2.6.5 版本，包括配置伪分布式环境所需的各项参数设置，如 core-site.xml、hdfs-site.xml、mapred-site.xml 和 yarn-site.xml 的关键属性。此外还提供了 HDFS 初始化、启动集群及验证运行状态的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

声明：作者原创，转载注明出处。
作者：帅气陈吃苹果

1、下载Hadoop压缩包

wget http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz

2、解压Hadoop压缩包

mkdir /bigdata
tar -zxvf hadoop-2.6.5.tar.gz -C /bigdata

3、配置Hadoop（伪分布式）

cd /bigdata/hadoop-2.6.5/etc/hadoop

1）vim hadoop-env.xml

export JAVA_HOME=/usr/lib/jvm/java

2）vim core-site.xml

 <configuration>
   <!-- 配置hdfs的namenode的地址-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master</value>
    <property>
    <!-- 配置Hadoop运行时产生数据的存储目录，注意：不是临时数据 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/local/var/hadoop/tmp/hadoop~${user.name}</value>
    </property>
</configuration>

3）vim hdfs-site.xml

 <configuration>
   <!-- 指定HDFS存储数据的副本数据量-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    <property>
</configuration>

4）vim mapred-site.xml

 <configuration>
   <!-- 指定MapReduce编程模型运行在YARN上-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    <property>
</configuration>

5）vim yarn-site.xml

<configuration>
    <!-- 指定YARN的resourcemanager的地址（伪分布式时就是主机名，localhost或IP地址都行） -->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>master</value>
    <property>

    <!--  MapReduce执行shuffle时获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    <property>
</configuration>

6）vim /etc/hosts

添加主机ip与主机名的映射：

192.168.29.188 master

4、HDFS初始化

即格式化HDFS（的namenode），

cd hadoop/hadoop-2.6.5/bin

hadoop namenode -format

5、启动Hadoop集群

cd hadoop/hadoop-2.6.5/sbin

//在hadoop-2.x中，推荐使用start-dfs.sh和start-yarn.sh来分别启动
start-all.sh

6、使用jps命令查看进程是否存在

8707     DataNode
8580     NameNode
9013     ResourceManager
8873     SecondaryNameNode
18057     Application
9308     NodeManager
17644     Jps

7、查看WEB界面

访问HDFS的管理界面：ip:50070

访问YARN的管理界面：ip:8088

最后，欢迎指正。喜欢的话，点个赞呗，请你吃苹果。