Hadoop安装部署&伪分布式搭建

目录

1.伪分布式模式介绍

2. 平台软件说明

3. 伪分布式搭建环境准备

        3.1. 总纲

        3.2. 防⽕墙关闭确认

        3.3. 配置/etc/hosts⽂件

         3.4. 确保ssh对localhost的免密登陆认证有效

         3.5. 安装Jdk和Hadoop,配置相关环境变量

4. 伪分布式相关⽂件配置

5. 格式化NameNode

6. 启动HDFS

7. WebUI查看


1.伪分布式模式介绍

1. 特点
- 在⼀台机器上安装,使⽤的是分布式思想,即分布式⽂件系统,⾮本地⽂件系 统。
- Hdfs 涉及到的相关守护进程 (namenode,datanode,secondarynamenode) 都运⾏在⼀台机器上,都是独⽴的java 进程。
2. ⽤途
Standalone mode 多了代码调试功能,允许检查内存使⽤情况, HDFS 输⼊输
出,以及其他的守护进程交互。

2. 平台软件说明

平台&软件

说明

操作系统

Windows7 或 Windows 10 或 Mac OS

虚拟软件

VMWare 或 Parallels Desktop(Mac Only)

虚拟机

主机名: hadoop01,IP地址: 192.168.10.101

SSH⼯具

MobaXterm(Windows) 或 FinalShell(Mac)

软件包上传路径

/root/softwares

软件安装路径

/usr/local

JDK

jdk-8u221-linux-x64.tar.gz

Hadoop

hadoop-2.7.6.tar.gz

⽤户

root

3. 伪分布式搭建环境准备

        3.1. 总纲

1. 确保防⽕墙是关闭状态。
2. 确保 NAT 模式和静态 IP 的确定 ( 192.168.10.101
3. 确保 /etc/hosts ⽂件⾥ , ip hostname 的映射关系
4. 确保免密登陆 localhost 有效
5. jdk hadoop 的环境变量配置

        3.2. 防⽕墙关闭确认

[root@hadoop01 ~] # systemctl stop firewalld
[root@hadoop01 ~] # systemctl disable firewalld.service
[root@hadoop01 ~] # systemctl stop NetworkManager
[root@hadoop01 ~] # systemctl disable NetworkManager
# 最好也把 selinux 关闭掉,这是 linux 系统的⼀个安全机制,进⼊⽂件中将 SELINUX设置为 disabled
[root@hadoop01 ~] # vi /etc/selinux/config
.........
SELINUX = disabled
.........

        3.3. 配置/etc/hosts⽂件

-- 进⼊ hosts ⽂件,配置⼀下 ip hostname
[root@hadoop01 ~] # vi /etc/hosts
127 .0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192 .168.10.101 hadoop01   < ==== 添加本机的静态 IP 和本机的主机名之间的映射关系

         3.4. 确保sshlocalhost的免密登陆认证有效

# 1. 使⽤ rsa 加密技术,⽣成公钥和私钥。⼀路回⻋即可
[root@hadoop01 ~] # ssh-keygen -t rsa
# 2. 进⼊ ~/.ssh ⽬录下,使⽤ ssh-copy-id 命令
[root@hadoop01 .ssh] # ssh-copy-id root@localhost
# 3. 进⾏验证 , 去掉第⼀次的询问( yes/no
[hadoop@hadoop01 .ssh] # ssh localhost

         3.5. 安装JdkHadoop,配置相关环境变量

-1 . 上传和解压两个软件包
[root@hadoop01 ~] # tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/local/
[root@hadoop01 ~] # tar -zxvf hadoop-2.7.6.tar.gz -C /usr/local/
-2 . 进⼊ local ⾥,给两个软件更名
[root@hadoop01 ~] # cd /usr/local/
[root@hadoop01 local] # mv 1.8.0_221/ jdk
[root@hadoop01 local] # mv hadoop-2.7.6/ hadoop
-3 . 配置环境变量
[hadoop@hadoop01 local] # vi /etc/profile
..... 省略 ...........
#java environment
export JAVA_HOME = /usr/local/jdk
export PATH = $JAVA_HOME /bin: $JAVA_HOME /jre/bin: $PATH

#hadoop environment
export HADOOP_HOME = /usr/local/hadoop
export PATH = $HADOOP_HOME /bin: $HADOOP_HOME /sbin: $PATH
-4 生效文件
[hadoop@hadoop01 local] # source /etc/profile

4. 伪分布式相关⽂件配置

目录下 修改配置文件

[root@hadoop01 local]# cd /usr/local/hadoop/etc/hadoop

 1. core-site.xml的配置

[root@hadoop01 hadoop]# vi core-site.xml

<configuration>
        <!-- 配置分布式⽂件系统的 schema ip 以及 port, 默认 8020-->
        <property>
                <name> fs.defaultFS </name>
                <value> hdfs://localhost:8020/ </value>
        </property>

</configuration>

#扩展 : hadoop1.x 的默认端⼝是 9000 hadoop2.x 的默认端⼝是 8020 ,使⽤哪 ⼀个都可以
2. hdfs-site.xml 的配置
[root@hadoop01 hadoop]# vi hdfs-site.xml
<configuration>
        <!-- 配置副本数,注意,伪分布模式只能是 1 -->
        <property>
                <name> dfs.replication </name>
                <value> 1 </value>
        </property>
</configuration>
3. hadoop-env.sh 的配置:指定 jdk 的环境
[root@hadoop01 hadoop] # vi hadoop-env.sh
................
# The java implementation to use.
export JAVA_HOME = /usr/local/jdk
..................

5. 格式化NameNode

1. 格式化命令
[root@hadoop01 hadoop] # hdfs namenode -format

6. 启动HDFS

1. 启动伪分布式
[root@hadoop01 hadoop] # start-dfs.sh
2. jps 命令查看守护进程
[root@hadoop01 hadoop] # jp s
启动脚本会开启分布式⽂件系统上的相关进程:
namenode
datanode
secondarynamenode

7. WebUI查看

可以在浏览器上输⼊: 192.168.10.101:50070 来查看⼀下伪分布式集群的信息
--1. 浏览⼀下⻚⾯上提示的 ClusterID,BlockPoolID
--2. 查看⼀下活跃节点 (Live Nodes) 的个数,应该是 1
Compiled: 编译 hadoop 是由 kshvachk ⼯具集成的
Cluster ID: 集群 id
Block Pool ID:datanode 节点的 block 池的 id, 每个 datanode 节点的都要⼀样

### Hadoop 安装伪分布式集群搭建指南 #### 一、准备工作 确保操作系统已准备好并安装必要的依赖项。对于大多数Linux发行版来说,这通常意味着更新包管理器和安装Java开发工具包(JDK)[^1]。 #### 二、下载并解压Hadoop软件包 可以从Apache官方网站获取最新稳定版本的Hadoop压缩包,并将其放置在一个合适的路径下进行解压操作[^2]: ```bash tar -zxvf hadoop-3.1.3.tar.gz -C /usr/local/ ``` #### 三、修改环境变量 编辑`~/.bashrc`或其他相应的shell初始化脚本,在其中添加如下两行来设置HADOOP_HOME环境变量以及将$HADOOP_HOME/bin加入到系统的PATH中去: ```bash export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin ``` #### 四、配置SSH无密码登录 为了让NameNode能够通过SSH连接DataNodes而无需输入密码,需要先创建一对公私钥对并将公钥分发给所有节点上的authorized_keys文件内。 #### 五、调整核心配置文件core-site.xml 此文件位于`$HADOOP_HOME/etc/hadoop/core-site.xml`位置,需向其中增加如下属性以指明namenode地址及端口号: ```xml &lt;configuration&gt; &lt;property&gt; &lt;name&gt;fs.defaultFS&lt;/name&gt; &lt;value&gt;hdfs://localhost:9000&lt;/value&gt; &lt;/property&gt; &lt;/configuration&gt; ``` #### 六、设定HDFS特定参数hdfs-site.xml 同样是在上述etc目录里找到名为hdfs-site.xml的文档,按照需求填写replication因子等相信息[^3]: ```xml &lt;configuration&gt; &lt;property&gt; &lt;name&gt;dfs.replication&lt;/name&gt; &lt;value&gt;1&lt;/value&gt; &lt;/property&gt; &lt;/configuration&gt; ``` #### 七、格式化Namenode 执行命令`hdfs namenode -format`来进行初次格式化处理,这是启动之前必不可少的一个环节。 #### 八、启动服务 依次运行start-dfs.sh和start-yarn.sh两个脚本来开启各个组件的服务进程[^4]。 #### 九、验证部署成果 访问http://localhost:50070查看Web UI界面确认是否成功建立了伪分布式Hadoop集群环境。 ```python import os os.system(&#39;jps&#39;) # 查看java进程中是否有datanode, nodemanager等进程存在 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值