在VMware虚拟机上分布式安装Hadoop架构(1)——准备工作

0 主要参考教程

1 、厦门大学数据库实验室
2、JeffreyZhou的博客园

00 大概步骤

1、在 Master 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境
2、在 Master 节点上安装 Hadoop,并完成配置
3、在其他 Slave 节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境
4、将 Master 节点上的 /usr/local/hadoop 目录复制到其他 Slave 节点上
5、在 Master 节点上开启 Hadoop

1.1 Ubuntu系统安装

服务器为Windows Server 2012 R2系统,在此服务器上,用VMware Workstation 14 Pro 虚拟机安装Ubuntu系统。其详细配置信息如图所示:
虚拟机系统配置

先配置一个Slaver系统即可,配置完成后利用虚拟机的克隆功能,创建Slaver23

1.2 创建hadoop用户

在本例中,Master系统中有两个用户xiaozhouhadoop,其余三个从结点(Slaver1~3)只有一个用户hadoop
  在Master系统中,创建新用户hadoop

 $ sudo useradd -m hadoop -s /bin/bash
 $ sudo passwd hadoop
 $ sudo adduser hadoop sudo

上述语句:

  • 创建了可以登陆的 hadoop 用户,并使用 /bin/bash 作为 shell。
  • 设置密码
  • 为hadoop用户增加管理员权限
1.3 更新apt,安装vim
$ sudo apt-get upgrade
$ sudo apt-get install vim 
1.4 SSH安装配置
  1. SSH用于主、从节点之间的连接;Ubuntu默认已安装SSH client,还需要安装SSH server:
$ sudo apt-get install openssh-server
# 安装后使用如下命令登录本机
$ ssh localhost   # 会发现需要密码
$ exit # 退出本次登录,
  1. 在首次登录后,会自动生成~/.ssh/文件夹,穷则独善其身,我们先对本机实现无密码登录:
$ cd ~/.ssh/
$ ssh-keygen -t rsa  # 此时一路回车不回头
$ cat ./id-rsa.pub >> ./authorized_keys # 加入授权

再次使用ssh localhost命令,无需输入密码即可登录。
此时实现的是本机的SSH无密登录,等后续建立slave节点后,再进行主、从节点间的SSH无密登录。

1.5 安装Java环境

怎么下载安装JDK的实在有点忘了,不过这个随意一搜就知道了,在这就懒得再写这一过程了。  
  大概步骤就是直接下载JKD的tar.gz压缩包,然后直接解压缩到一个目录下就行了。不像windows那样还有安装exe文件,主要是知道解压在哪个目录下了,接下来配置环境变量。
  本例中,将JAVA_HOME配置在/etc/profile中,
profile内容

设置完成后一定不要忘了让该环境变量生效,不然你会怀疑人生是不是做了什么错事,明明设置了位数没反应。别怀疑,人丑就要多读书,你就是读少了。

$ source /etc/profile   # 使变量设置生效
$ echo $JAVA_HOME   # 检验变量值
1.6 后记

到此,Master上面的准备工作已经基本完成,中间可能会出现一些小问题,可以参考另外一篇博文,Hadoop实践学习中的问题汇总(持续补充),这记录了Hadoop实践学习中本人亲历的一(大)些(量)小东西,别致的很呢。

### VMware 虚拟机 Linux 环境下 Hadoop 安装教程 #### 准备工作VMware 虚拟机中安装 Linux 后,为了成功部署 Hadoop 集群,需完成以下准备工作1. **下载并安装 JDK** Hadoop 运行依赖于 Java 环境。因此,在安装 Hadoop 前需要先安装 JDK 并配置 `JAVA_HOME` 环境变量。可以通过编辑 `/etc/profile` 文件来设置环境变量[^3]。 2. **下载 Hadoop** 下载适合版本的 Hadoop 压缩包(如 hadoop-3.3.2.tar.gz),将其上传至虚拟机中的指定目录,并解压到目标路径。例如,可以将 Hadoop 解压后放置在 `/usr/hadoop/` 目录下[^2]。 #### 具体步骤 ##### 1. 配置 SSH 密钥免密登录 Hadoop分布式运行模式需要通过 SSH 来管理节点间的通信。为此,建议生成 SSH 密钥并对本地主机进行免密登录配置: ```bash ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys ``` ##### 2. 修改 Hadoop 配置文件 进入 Hadoop 的配置目录(通常位于 `${HADOOP_HOME}/etc/hadoop/`),修改以下几个核心配置文件: - **core-site.xml** 设置 HDFS 默认存储位置和临时文件路径。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` - **hdfs-site.xml** 配置 NameNode 和 DataNode 数据存储副本数。 ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` - **mapred-site.xml** 如果该文件不存在,则可以从模板复制一份 (`cp mapred-site.xml.template mapred-site.xml`),然后定义 MapReduce 框架的工作方式。 ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` - **yarn-site.xml** YARN 是资源调度框架的核心组件,其主要参数如下所示。 ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` ##### 3. 格式化 HDFS 文件系统 执行以下命令初始化 HDFS 文件系统的元数据: ```bash ${HADOOP_HOME}/bin/hdfs namenode -format ``` ##### 4. 启动 Hadoop 服务 启动 HDFS 和 YARN 服务: ```bash start-dfs.sh start-yarn.sh ``` 验证服务状态是否正常运行: ```bash jps ``` 如果一切顺利,应该能看到以下进程:`NameNode`, `DataNode`, `ResourceManager`, 和 `NodeManager`。 --- ### 注意事项 - 确保防火墙未阻止必要的端口(如 8088, 9000)[^4]。 - 使用 MobaXterm 或其他工具远程连接虚拟机时,确认网络连通性和 IP 地址配置无误。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值