第一个博客写一个完整的hadoop伪分布模式平台搭建

最新推荐文章于 2023-05-28 19:20:32 发布

我是你的一切的海角

最新推荐文章于 2023-05-28 19:20:32 发布

阅读量355

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_41211726/article/details/79937548

本文详细介绍如何在虚拟机中安装配置Hadoop环境，包括JDK与Hadoop软件的安装、环境变量设置、SSH免密码登录配置及核心配置文件的调整。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

虚拟机的安装度娘有大量的教程，在这里不多讲，直接上干货

先做一些准备工作：

下载jdk：http://www.oracle.com/technetwork/java/javase/downloads/index.html

下载Hadoop安装包：去阿帕奇官网下载自己想要的版本下载链接：http://hadoop.apache.org/#Download+Hadoop

推荐一个工具：wincp 远程拷贝非常好用

打开虚拟机查看网络是否畅通：ifconfig 如果找不到这个命令就需要安装net-tools 命令是：sudo apt-get install net -tools

安装ssh 命令：sudo apt-get install ssh 一路yes安装成功

生成公钥私钥命令：ssh-keygen 一路回车

在 ~/.ssh目录里将id——rsa.pub重定向到authorized_keys 命令：cat id_rsa.pub >> authorized_keys 然后ssh localhost查看是否成功，第一次连接会询问是否保存 yes即可

正式开始：

用wincp将宿主机文件拷贝到虚拟机

在/usr下面新建一个目录为soft 为soft添加权限 sudo chmod 7777 soft

将Hadoop gz文件解压到soft目录命令：tar -xzvf Hadoop文件名 -C /usr/soft/

将 jdk gz文件解压到soft目录命令：tar -xzvf jdk文件名 -C /usr/soft/

解压完成之后配置环境变量：进入根目录下的etc目录编辑profile文件注意：这里是root权限编辑使用sudo vi profile

在最后一行添加环境变量：

HADOOP_HOME=/usr/soft/hadoop

JAVA_HOME=/usr/soft/jdk

重点：PATH=$PATH:$HADOOP_HOEM/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin 环境变量之间用冒号分割冒号分割冒号分割

然后ssh localhost 使用$HADOOP_HOME和$JAVA_HOME查看是否配置成功然后exit推出shell

编辑配置文件：在hadoop的解压包目录内进入etc下面的hadoop编辑以下5个配置文件

Hadoop-env.sh 更改export JAVA_HOME=${JAVA_HOME} 更改为绝对目录export JAVA_HOME=/usr/soft/jdk8

core-site.xml 添加

<name>fs.defaultFS</name>
                <value>hdfs://localhost:9000</value>
                </property>
                 <property>
                <name>hadoop.tmp.dir</name>
                <value>/hadoop_tmp</value>

</property>

hdfs-site.xml 添加

<property>
                <name>dfs.replication</name>
                <value>1</value>

</property>

yarn-site.xml 添加

                <property>
                <name>yarn-nodemanager.aux-services</name>
                  <value>mapreduce_shuffle</value>
                </property>

然后运行hadoop namenode -fromat命令看到 successful formated就表示namenode初始化成功

运行命令start-all.sh

然后jps查看守护进程

            2224 ResourceManager
            2564 Jps
            1734 NameNode
            1865 DataNode
            2362 NodeManager

2079 SecondaryNameNode

恭喜你成功了