CentOS7 HADOOP的安装

CentOs7 HADOOP的安装

1、安装步骤:

1、把Hadoop313拖进opt/downdoal下

在这里插入图片描述

2、免密登录

#解压hadoop文件
tar -zxf hadoop-3.1.3.tar.gz -C /opt/software				
 
#重命名 
mv /opt/sofware/hadoop* /opt/software/hadoop313

cd~

#设置密钥
ssh-keygen -t rsa

在这里插入图片描述

cat /root/.ssh/id_rsa.pub>>/root/.ssh/authorized_keys

#测试一下你能不能免密进入,singlebrown是我的主机名,你们自己用hostname查看自己的主机名
 ssh root@singlebrown




3 配置环境

vim /etc/profile.d/myenv.sh

#在shell文档里输入一下内容,建议复制粘贴,敲错一点会炸穿的哦~
#hadoop
export HADOOP_HOME=/opt/software/hadoop313
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_CONF_DIR=$HADOOP_HOME
export HADOOP_LIBEXEC_DIR=$HADOOP_HOME/libexec
export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native:$JAVA_LIBRARY_PATH
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop


#接下来对四个文件处理
#core-site.xml	hdfs-site.xml	yarn-site.xml	mapred-site.xml
vim /opt/software/hadoop313/etc/hadoop/core-site.xml
#在这个文档里输入(记得更改自己ip地址和用户名,四个文件都要修改,不能照搬我的!)
<!--配置namenode的地址 外部访问hadoop-->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://192.168.75.245:9820</value>
	</property>
	<!--配置数据存储目录 数据文件存放数据的 namenode-->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/software/hadoop313/data</value>
	</property>
	<!--配置HDFS网页登录使用的静态用户为root 代理 have以root的身份访问hadoop-->
	<property>
		<name>hadoop.http.staticuser.user</name>
		<value>root</value>
	</property>
	<!--配置root(超级用户)允许通过代理访问的主机节点-->
	<property>
		<name>hadoop.proxyuser.root.hosts</name>
		<value>*</value>
	</property>
	<!--配置root(超级用户)允许通过代理用户所属组-->
	<property>
		<name>hadoop.proxyuser.root.groups</name>
		<value>*</value>
	</property>
	<!--配置root(超级用户)允许通过代理的用户-->
	<property>
		<name>hadoop.proxyuser.root.user</name>
		<value>*</value>
	</property>

#第二个文档
vim hdfs-site.xml
#输入
<!--配置namenode web访问地址-->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>192.168.75.245:9870</value>
	</property>
	<!--配置secondary namenode web访问地址-->
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>192.168.75.245:9868</value>
	</property>
	<!--配置hdfs副本数量 备份机器数-->
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>


#第三个文档
vim yarn-site.xml
#输入
<!--配置mr的执行方式-->
	<property>
	    <name>yarn.nodemanager.aux-services</name>
	    <value>mapreduce_shuffle</value>
	</property>
	<!--配置ResourceManager的地址-->
	<property>
	    <name>yarn.resourcemanager.hostname</name>
	    <value>singlebrown</value>
	</property>
	<!--配置环境变量的继承-->
	<property>
	    <name>yarn.nodemanager.env-whitelist</name>
	    <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
	</property>
	<!--yarn初始申请内存大小-->
	<property>
       	 <name>yarn.app.mapreduce.am.resource.mb</name>
       	 <value>1024</value>
  	 </property>
	<!--配置yarn容器允许分配的最小内存-->
	<property>
	    <name>yarn.scheduler.minimum-allocation-mb</name>
	    <value>1024</value>
	</property>
	<!--配置yarn容器允许分配的最大内存-->
	<property>
	    <name>yarn.scheduler.maximum-allocation-mb</name>
	    <value>3072</value>
	</property>
	<!--配置yarn容器允许管理的物理内存大小-->
	<property>
	    <name>yarn.nodemanager.resource.memory-mb</name>
	    <value>3072</value>
	</property>
	<!--配置关闭yarn对物理内存和虚拟内存的限制检查,
	     	     	jdk8运行于centos以上版本会导致虚拟内存过大-->
	<property>
	    <name>yarn.nodemanager.pmem-check-enabled</name>
	    <value>false</value>
	</property>
	<!--配置关闭yarn对物理内存和虚拟内存的限制检查-->
	<property>
	    <name>yarn.nodemanager.vmem-check-enabled</name>
	    <value>false</value>
	</property>
	<!--开启日志聚集-->
	<property>
	    <name>yarn.log-aggregation-enable</name>
	    <value>true</value>
	</property>
	<!--配置日志聚集服务器地址-->
	<property>
	    <name>yarn.log.server.url</name>
	    <value>http://192.168.75.245:19888/jobhistory/logs</value>
	</property>
	<!--配置日志保留时间为7-->
	<property>
	    <name>yarn.log-aggregation.retain-seconds</name>
	    <value>604800</value>
	</property>


#第四个文档
vim mapred-site.xml
#输入
<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
	<!--配置历史服务器地址-->
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>192.168.75.245:10020</value>
	</property>
	<!--配置历史服务器web端地址-->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>192.168.75.245:19888</value>
	</property>
	<!--这一下的代码是为了解决 yarn不能找到包的问题 因为我们的机器没有出这样的错误所以下面的代码未测试 -->

	<!---property>
  		<name>yarn.app.mapreduce.am.env</name>
  		<value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>
	</property>
	<property>
  		<name>mapreduce.map.env</name>
  		<value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>
	</property>
	<property>
  		<name>mapreduce.reduce.env</name>
  		<value>HADOOP_MAPRED_HOME=${full path of your hadoop distribution directory}</value>
	</property  -->

四个文档配置完成后,
切换目录

cd /opt/software/hadoop313/bin

#输入
./hdfs namenode -format

在这里插入图片描述
如果显示如上图,成功了

#然后开启服务
start-all.sh

4 log文件查看

接下里创建一个log,如何在服务器里查看自己创建的log文件

[root@singlebrown script]# vim daimin.log
[root@singlebrown script]# hdfs dfs -mkdir /input
[root@singlebrown script]# hdfs dfs -ls /
Found 1 items
drwxr-xr-x   - root supergroup          0 2021-06-07 16:41 /input
[root@singlebrown script]# hdfs dfs -put daimin.log /input
2021-06-07 16:42:38,176 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false
[root@singlebrown script]# hdfs dfs -cat /input/*
2021-06-07 16:42:57,531 INFO sasl.SaslDataTransferClient: SASL encryption trust check: localHostTrusted = false, remoteHostTrusted = false

iwos hfs hsiao!

接着如何查看daimin.log日志里的内容的单词的数量呢

#切换目录
vim /opt/software/hadoop313/share/hadoop/mapareduce

#再输入下面的指令
hadoop jar hadop-mapredure-3.1.3.jar wordcount /input/daimin.log /output
#结果如下图

在这里插入图片描述

#查看output的指令
hdfs dfs -cat/out/part*

5、配置windows的环境变量

在环境变量里增加两条:
在这里插入图片描述
然后再path里新增:
在这里插入图片描述

接下来配置windows环境下的linux中hostname和ip地址映射

在c盘里找到windows/system32/driver/etc/hosts
如图:
在这里插入图片描述
然后增加一条信息:
你的ip地址 和你的用户名
如图
在这里插入图片描述

然后hadoop.dll 文件拖到到hadoop313/bin里
winutils.exe文件拖到windows/system32里

6、最后的步骤

cd /opt/software/

tar -zcvf hadoop313.tar.gz

sz hadoop313.tar.gz
#先存放在桌面,之后操作完可以删除,这只是压缩文件

#然后以管理员身份解压桌面的hadoop313文件,解压到D:/software/hadoop313里


#退出安全模式
hadoop dfsadmin -safemode leave


### CentOS 7安装 Hadoop 的前提条件与环境准备 在 CentOS 7安装 Hadoop 需要满足一系列的前提条件和环境准备,以下是详细的说明: #### 1. 系统要求 - **操作系统版本**:确保使用的是 CentOS 7 或更高版本的系统[^1]。 - **硬件配置**: - 至少 2GB 的内存(推荐 4GB 或更多)。 - 至少 20GB 的可用磁盘空间。 - 多核 CPU 可以提高性能。 #### 2. 虚拟机或物理机准备 - 如果使用虚拟机,确保虚拟机软件(如 VMware 或 VirtualBox)已正确安装并运行稳定。 - 分配足够的资源给虚拟机,包括内存、CPU 和磁盘空间[^2]。 #### 3. 网络配置 - 配置静态 IP 地址,确保网络连接稳定。 - 关闭防火墙或配置防火墙规则以允许 Hadoop 的相关端口通信[^3]。 ```bash systemctl stop firewalld systemctl disable firewalld ``` #### 4. Java 环境安装 Hadoop 是基于 Java 的分布式计算框架,因此需要安装 JDK。 - 推荐安装 JDK 8 或更高版本。 - 下载并解压 JDK 安装包到指定目录,例如 `/opt/module/jdk`。 - 配置环境变量: ```bash export JAVA_HOME=/opt/module/jdk export PATH=$JAVA_HOME/bin:$PATH ``` - 检查 Java 是否安装成功: ```bash java -version ``` #### 5. SSH 无密码登录配置 Hadoop 集群需要通过 SSH 进行节点间的通信,因此需要配置无密码登录。 - 生成 SSH 密钥对: ```bash ssh-keygen -t rsa ``` - 将公钥添加到授权密钥中: ```bash cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ``` - 测试无密码登录: ```bash ssh localhost ``` #### 6. 配置 Hadoop 环境变量 - 解压 Hadoop 安装包到指定目录,例如 `/opt/module/hadoop`。 - 配置 Hadoop 环境变量: ```bash export HADOOP_HOME=/opt/module/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH ``` #### 7. 修改 Hadoop 配置文件 - **core-site.xml**:配置 HDFS 的默认文件系统地址。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration> ``` - **hdfs-site.xml**:配置 HDFS 的副本数量。 ```xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration> ``` - **yarn-site.xml**:配置 YARN 的相关参数[^4]。 ```xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> ``` #### 8. 格式化 HDFS 在启动 Hadoop 之前,需要格式化 HDFS 文件系统: ```bash hdfs namenode -format ``` #### 9. 启动 Hadoop - 启动 HDFS: ```bash start-dfs.sh ``` - 启动 YARN(如果需要): ```bash start-yarn.sh ``` --- ###
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值