CentOS7 HADOOP的安装

CentOS7下Hadoop3.1.3的详细安装教程

最新推荐文章于 2024-07-16 05:41:11 发布

原创最新推荐文章于 2024-07-16 05:41:11 发布 · 512 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#linux #hadoop

虚拟机专栏收录该内容

5 篇文章

订阅专栏

本文档详细介绍了在CentOS7上安装Hadoop3.1.3的步骤，包括环境配置、免密登录、配置Hadoop相关文件、启动服务、日志查看及Windows环境变量配置等。通过这些步骤，读者可以成功搭建并运行Hadoop集群。

hadoop安装

CentOs7 HADOOP的安装
1、安装步骤：

CentOs7 HADOOP的安装

1、安装步骤：

1、把Hadoop313拖进opt/downdoal下

在这里插入图片描述

2、免密登录

#解压hadoop文件
tar -zxf hadoop-3.1.3.tar.gz -C /opt/software				
 
#重命名 
mv /opt/sofware/hadoop* /opt/software/hadoop313

cd~

#设置密钥
ssh-keygen -t rsa

在这里插入图片描述

cat /root/.ssh/id_rsa.pub>>/root/.ssh/authorized_keys

#测试一下你能不能免密进入，singlebrown是我的主机名，你们自己用hostname查看自己的主机名
 ssh root@singlebrown

3 配置环境

vim /etc/profile.d/myenv.sh

#在shell文档里输入一下内容，建议复制粘贴，敲错一点会炸穿的哦~
#hadoop
export HADOOP_HOME=/opt/software/hadoop313
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop


#接下来对四个文件处理
#core-site.xml	hdfs-site.xml	yarn-site.xml	mapred-site.xml
vim /opt/software/hadoop313/etc/hadoop/core-site.xml
#在这个文档里输入（记得更改自己ip地址和用户名，四个文件都要修改，不能照搬我的！）
<!--配置namenode的地址 外部访问hadoop-->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://192.168.75.245:9820</value>
	</property>
	<!--配置数据存储目录 数据文件存放数据的 namenode-->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/software/hadoop313/data</value>
	</property>
	<!--配置HDFS网页登录使用的静态用户为root 代理 have以root的身份访问hadoop-->
	<property>
		<name>hadoop.http.staticuser.user</name>
		<value>root</value>
	</property>
	<!--配置root(超级用户)允许通过代理访问的主机节点-->
	<property>
		<name>hadoop.proxyuser.root.hosts</name>
		<value>*</value>
	</property>
	<!--配置root(超级用户)允许通过代理用户所属组-->
	<property>
		<name>hadoop.proxyuser.root.groups</name>
		<value>*</value>
	</property>
	<!--配置root(超级用户)允许通过代理的用户-->
	<property>
		<name>hadoop.proxyuser.root.user</name>
		<value>*</value>
	</property>

#第二个文档
vim hdfs-site.xml
#输入
<!--配置namenode web访问地址-->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>192.168.75.245:9870</value>
	</property>
	<!--配置secondary namenode web访问地址-->
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>192.168.75.245:9868</value>
	</property>
	<!--配置hdfs副本数量 备份机器数-->
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>


#第三个文档
vim yarn-site.xml
#输入
<!--配置mr的执行方式-->
	<property>
	    <name>yarn.nodemanager.aux-services</name>
	    <value>mapreduce_shuffle</value>
	</property>
	<!--配置ResourceManager的地址-->
	<property>
	    <name>yarn.resourcemanager.hostname</name>
	    <value>singlebrown</value>
	</property>
	<!--配置环境变量的继承-->
	<property>
	    <name>yarn.nodemanager.env-whitelist</name>
	    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
	</property>
	<!--yarn初始申请内存大小-->
	<property>
       	 <name>yarn.app.mapreduce.am.resource.mb</name>
       	 <value>1024</value>
  	 </property>
	<!--配置yarn容器允许分配的最小内存-->
	<property>
	    <name>yarn.scheduler.minimum-allocation-mb</name>
	    <value>1024</value>
	</property>
	<!--配置yarn容器允许分配的最大内存-->
	<property>
	    <name>yarn.scheduler.maximum-allocation-mb</name>
	    <value>3072</value>
	</property>
	<!--配置yarn容器允许管理的物理内存大小-->
	<property>
	    <name>yarn.nodemanager.resource.memory-mb</name>
	    <value>3072</value>
	</property>
	<!--配置关闭yarn对物理内存和虚拟内存的限制检查，
	     	     	jdk8运行于centos以上版本会导致虚拟内存过大-->
	<property>
	    <name>yarn.nodemanager.pmem-check-enabled</name>
	    <value>false</value>
	</property>
	<!--配置关闭yarn对物理内存和虚拟内存的限制检查-->
	<property>
	    <name>yarn.nodemanager.vmem-check-enabled</name>
	    <value>false</value>
	</property>
	<!--开启日志聚集-->
	<property>
	    <name>yarn.log-aggregation-enable</name>
	    <value>true</value>
	</property>
	<!--配置日志聚集服务器地址-->
	<property>
	    <name>yarn.log.server.url</name>
	    <value>http://192.168.75.245:19888/jobhistory/logs</value>
	</property>
	<!--配置日志保留时间为7天-->
	<property>
	    <name>yarn.log-aggregation.retain-seconds</name>
	    <value>604800</value>
	</property>


#第四个文档
vim mapred-site.xml
#输入
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	<!--配置历史服务器地址-->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>192.168.75.245:10020</value>
	</property>
	<!--配置历史服务器web端地址-->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>192.168.75.245:19888</value>
	</property>
	<!--这一下的代码是为了解决 yarn不能找到包的问题 因为我们的机器没有出这样的错误所以下面的代码未测试 -->

	<!---property>
  		<name>yarn.app.mapreduce.am.env</name>
  		<value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>
	</property>
	<property>
  		<name>mapreduce.map.env</name>
  		<value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>
	</property>
	<property>
  		<name>mapreduce.reduce.env</name>
  		<value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>
	</property  -->

四个文档配置完成后，
切换目录

cd /opt/software/hadoop313/bin

#输入
./hdfs namenode -format

在这里插入图片描述
如果显示如上图，成功了

#然后开启服务
start-all.sh

4 log文件查看

接下里创建一个log，如何在服务器里查看自己创建的log文件

[root@singlebrown script]# vim daimin.log
[root@singlebrown script]# hdfs dfs -mkdir /input
[root@singlebrown script]# hdfs dfs -ls /
Found 1 items
drwxr-xr-x   - root supergroup          0 2021-06-07 16:41 /input
[root@singlebrown script]# hdfs dfs -put daimin.log /input
2021-06-07 16:42:38,176 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@singlebrown script]# hdfs dfs -cat /input/*
2021-06-07 16:42:57,531 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

iwos hfs hsiao!

接着如何查看daimin.log日志里的内容的单词的数量呢

#切换目录
vim /opt/software/hadoop313/share/hadoop/mapareduce

#再输入下面的指令
hadoop jar hadop-mapredure-3.1.3.jar wordcount /input/daimin.log /output
#结果如下图

在这里插入图片描述

#查看output的指令
hdfs dfs -cat/out/part*

5、配置windows的环境变量

在环境变量里增加两条：
在这里插入图片描述
然后再path里新增：

接下来配置windows环境下的linux中hostname和ip地址映射

在c盘里找到windows/system32/driver/etc/hosts
如图：
在这里插入图片描述
然后增加一条信息：
你的ip地址和你的用户名
如图

然后hadoop.dll 文件拖到到hadoop313/bin里
winutils.exe文件拖到windows/system32里

6、最后的步骤

cd /opt/software/

tar -zcvf hadoop313.tar.gz

sz hadoop313.tar.gz
#先存放在桌面，之后操作完可以删除，这只是压缩文件

#然后以管理员身份解压桌面的hadoop313文件，解压到D:/software/hadoop313里


#退出安全模式
hadoop dfsadmin -safemode leave