大数据Hadoop环境配置:Win10 VMware虚拟机 安装Ubuntu18.04 JDK Hadoop 伪分布式配置 wordcount实例运行

一、Win10 VMware虚拟机 安装Ubuntu18.04

详细步骤:https://blog.youkuaiyun.com/lzbmc/article/details/90757592

Tips:

安装了VMware Tools:可以在宿主机和虚拟机之间直接拷贝文件。

会弹出VMWareTools所在的文件夹,然后右键VMWare Tools.tar.gz,copy to到Home目录下。

输入解压命令:sudo tar -xzvf  VMwareTools-10.3.10-12406962.tar.gz 就出现左边解压文件

进入解压目录:cd vmware-tools-distrib

安装: sudo ./vmware-install.pl 不断回车——安装成功,重启

二、创建hadoop用户

1、创建一个Hadoop用户,用户名和密码都是hadoop

sudo adduser hadoop

2、在创建hadoop用户的同时也创建了hadoop用户组,下面我们把hadoop用户加入到hadoop用户组

sudo usermod -a -G hadoop hadoop 

前面一个hadoop是组名,后面一个hadoop是用户名。完成后输入一下命令查询结果。

cat  /etc/group

3、为hadoop用户添加权限

输入:sudo gedit /etc/sudoers   回车,打开sudoers文件

给hadoop用户赋予和root用户同样的权限,保存

三、JDK安装配置

OpenJDK 8

更新: sudo apt-get update

安装:sudo apt-get install openjdk-8-jdk

配置openJDK环境变量:只有一个jdk没有配置

sudo vi /etc/profile

增加以下设置: 按a或者i进入写入模式

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64

export JRE_HOME=${JAVA_HOME}/jre

export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

export PATH=${JAVA_HOME}/bin:$PATH

ESC退出编辑

:wq保存退出

保存退出之后输入:

source /etc/profile 使更改生效

echo $PATH  或者 echo $JAVA_HOME 验证一下路径

验证

注销重新登陆一下, 输入java -version, 提示如下则成功

openjdk version "1.8.0_151"

OpenJDK Runtime Environment (build 1.8.0_151-8u151-b12-1~deb9u1-b12)

OpenJDK 64-Bit Server VM (build 25.151-b12, mixed mode)

四、SSH无密码登录设置

sudo apt-get install openssh-server   #安装SSH server

ssh localhost                         #登陆SSH,第一次登陆输入yes

### The authenticity of host 'localhost (127.0.0.1)' can't be established.

### 删除rm -rf /home/hadoop/.ssh/known_hosts 重新 ssh localhost

exit           #退出登录的ssh localhost

本次实验旨在学习Hadoop分布式计算框架的部署使用,以下是实验报告: 一、实验环境 1. 虚拟机软件VMware Workstation Pro 16 2. 操作系统:Ubuntu Server 18.04 LTS 3. Hadoop版本:Hadoop-2.7.7 4. Java版本:OpenJDK 8 二、实验步骤 1. 安装Java 在Ubuntu系统上安装OpenJDK 8: ``` sudo apt-get update sudo apt-get install openjdk-8-jdk ``` 2. 下载Hadoop 从官网下载Hadoop-2.7.7版本:https://hadoop.apache.org/releases.html 3. 配置Hadoop 解压Hadoop文件,将其放置在指定目录下(此处为/usr/local/hadoop/): ``` sudo tar -zxvf hadoop-2.7.7.tar.gz -C /usr/local/ sudo mv /usr/local/hadoop-2.7.7 /usr/local/hadoop ``` 配置Hadoop环境变量: ``` sudo nano ~/.bashrc ``` 在文件末尾添加以下内容: ``` export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin ``` 保存退出,然后使用以下命令使环境变量生效: ``` source ~/.bashrc ``` 4. 配置Hadoop集群 首先,在master节点上创建一个名为“hadoop”的用户,设置密码: ``` sudo adduser hadoop sudo passwd hadoop ``` 然后在master节点slave节点上安装ssh服务: ``` sudo apt-get install ssh ``` 生成ssh密钥: ``` ssh-keygen -t rsa ``` 将公钥复制到所有slave节点: ``` ssh-copy-id hadoop@slave1 ssh-copy-id hadoop@slave2 ... ``` 编辑Hadoop配置文件/etc/hadoop/core-site.xml,添加以下内容: ``` <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration> ``` 其中“master”是master节点的主机名。 编辑Hadoop配置文件/etc/hadoop/hdfs-site.xml,添加以下内容: ``` <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>/usr/local/hadoop/data/nameNode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/usr/local/hadoop/data/dataNode</value> </property> </configuration> ``` 其中“dfs.replication”表示数据副本数,这里设置为3;“dfs.namenode.name.dir”表示NameNode的数据存储位置,“dfs.datanode.data.dir”表示DataNode的数据存储位置。 编辑Hadoop配置文件/etc/hadoop/mapred-site.xml,添加以下内容: ``` <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` 编辑Hadoop配置文件/etc/hadoop/yarn-site.xml,添加以下内容: ``` <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` 其中“yarn.resourcemanager.hostname”表示ResourceManager的主机名,“yarn.nodemanager.aux-services”表示NodeManager的辅助服务。 5. 启动Hadoop集群 启动Hadoop集群: ``` start-all.sh ``` 使用jps命令查看Hadoop进程: ``` jps ``` 输出如下: ``` 24012 Jps 23632 ResourceManager 23355 NameNode 23824 NodeManager 23519 SecondaryNameNode ``` 6. 验证Hadoop集群 在Hadoop集群中上传文件: ``` hdfs dfs -mkdir /input hdfs dfs -put /usr/local/hadoop/etc/hadoop/*.xml /input ``` 运行Hadoop自带的wordcount例子: ``` hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar wordcount /input /output ``` 查看结果: ``` hdfs dfs -cat /output/part-r-00000 ``` 输出如下: ``` "1 "2 "3 "4 "5 "6 "7 "8 "9 "a 2 ``` 至此,Hadoop集群部署实验完成。 三、实验总结 通过本次实验,我学习了Hadoop分布式计算框架的部署使用方法,了解了Hadoop集群的配置启动方式,成功运行Hadoop自带的wordcount例子,加深了对Hadoop的理解应用。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值