大数据简单的配置步骤

Linux环境下:

修改IP:

//	vi /etc/sysconfig/network-scripts/ifcfg-ens33
	//	BOOTPROTO=static
	//	ONBOOT=yes

	//	IPADDR=192.168.X.51
	//	GATEWAY=192.168.X.2
	//	DNS1=8.8.8.8
	//	DNS2=8.8.4.4
	//	NETMASK=255.255.255.0

//	vi /etc/resolv.conf
	//	nameserver 8.8.8.8
	//	nameserver 8.8.4.4
//重启网卡:servie network restart

关闭防火墙:

//	关闭防火墙:systemctl stop firewalld.service
//	禁用防火墙:systemctl disable firewalld.service
//	查看防火墙:systemctl status firewalld.service

//	关闭Selinux:vi /etc/selinux	/config
//	将SELINUX=enforcing改为SELINUX=disabled

修改主机名:

//	hostnamectl set-hostname 主机名

IP和主机名关系映射:

//	vi /etc/hosts
192.168.x.51 bigdata111
192.168.x.52 bigdata112
192.168.x.53 bigdata113

//	在windows的C:\Windows\System32\drivers\etc路径下找到hosts并添加
192.168.x.51 bigdata111
192.168.x.52 bigdata112
192.168.x.53 bigdata113

在opt目录下创建文件:

//	mkdir module software

CRT环境下:

安装和卸载JDK和HADOOP步骤:

//CRT传输文件
	//alt + p 
	//输入放的目录
	//pwd查看一下是否是这个目录
	//然后直接把要传输的文件扔进去就好

//	在/opt目录下创建两个子文件
	//mkdir /opt/module /opt/software

//	解压jdk到/opt/module目录下
	//tar -zxvf jdk-8u144-linux-x64.tar.gz -C /opt/module/

//	配置jdk环境变量
	//vi /etc/profile
		//export JAVA_HOME=/opt/module/jdk1.8.0_144
		//export PATH=$PATH:$JAVA_HOME/bin
		//export HADOOP_HOME=/opt/module/hadoop-2.8.4
		//export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
	//source /etc/profile

//	测试java是否配置成功
	//javac	或	java -cersion

//	测试Hadoop是否配置成功
	//输入start-d按TAB键  如果出现“start-dfs.”就配置成功了

伪/完全分布式部署Hadoop:

配置集群:
// 先进入Hadoop文件下
	//	cd /opt/module/hadoop-2.8.4/

//	配置的是etc下的Hadoop文件下的文本	其他:lib(存放的ja包)share(存放的案例ja包)
	//	cd etc/hadoop/	(相对路径)
	//	路径:/opt/module/hadoop-2.8.4/etc/hadoop
配置 core-site.xml 文件

​ 输入方式:vi cor(习惯使用TAB键)

​ 进入后:在19行和20行之间添加以下代码(也就是之间)

	<!-- 指定HDFS中NameNode的地址,注:低版本的Hadoop的端口号是:8020 -->
	<property>
		<name>fs.defaultFS</name>
        <value>hdfs://主机名1:9000</value>
	</property>

	<!-- 指定hadoop运行时产生文件的存储目录 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/opt/module/hadoop-2.X.X/data/tmp</value>
	</property>

代码的修改方式:

//	 注:主机名1-->改为需要配置的主机名

//		/opt/module/hadoop-2.X.X/data/tmp删掉----->克隆一个新窗口,

//		在新的窗口中输入:cd /opt/module/hadoop-2.8.4/	

//		进入hadoop-2.8.4目录下 创建 data 和 logs 文件

//		命令:mkdir data  logs

//		进入 data 文件,查看当前路径:pwd --> /opt/module/hadoop-2.8.4/data  

//		复制当前路径到<value>(/opt/module/hadoop-2.8.4/data)</value>之间

//		保存退出:wq
配置 hdfs-site.xml 文件

​ 输入方式:vi hdf(习惯使用TAB键)

​ 进入后:在第20行添加以下代码(也就是之间)

 	<!--数据冗余数/备份数(默认3份)-->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>

    <!--Secondary NameNode的地址,端口号是:50090-->
	<property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>主机名1:50090</value>
	</property>

	<!--关闭权限-->
	<property>
    	 <name>dfs.permissions</name>
    	 <value>false</value>
	 </property>
//	注:主机名1-->改为需要配置的主机名

//		保存退出:wq
配置 yarn-site.xml 文件

​ 输入方式:vi yarn-s(习惯使用TAB键)

​ 进入后:将19行删除后,添加以下代码(也就是之间)

	<!-- reducer获取数据的方式 -->
	<property>
		 <name>yarn.nodemanager.aux-services</name>
		 <value>mapreduce_shuffle</value>
	</property>

	<!-- 指定YARN的ResourceManager的地址 -->
	<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>主机名1</value>
	</property>
	
    <!-- 日志聚集功能使用 -->
	<property>
		<name>yarn.log-aggregation-enable</name>
		<value>true</value>
	</property>
	
	<!-- 日志保留时间设置7天(秒) -->
	<property>
		<name>yarn.log-aggregation.retain-seconds</name>
		<value>604800</value>
	</property>
//	注:主机名1-->改为需要配置的主机名

//		保存退出:wq
配置 mapred-site.xml 文件

​ 输入方式:vi mapred-s(习惯使用TAB键)

​ 出现的是:mapred-site.xml.template 临时文件

​ 改文件的名字:mv mapred-site.xml.template mapred-site.xml

​ 在输入:vi mapred-s(习惯使用TAB键)

​ 进入后:在20行添加以下代码(也就是之间)

	<!-- 指定MR运行在YARN上-->
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

    <!--历史服务器的地址-->
	<property>
	    <name>mapreduce.jobhistory.address</name>
	    <value>主机名1:10020</value>
	</property>

    <!--历史服务器页面的地址-->
	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>主机名1:19888</value>
	</property>
//	注:主机名1-->改为需要配置的主机名

//		保存退出:wq
添加环境变量的配置:

​ 进入环境变量配置文件:vi /etc/profile

​ 进入后:shift + g (跳转到最后一行)

​ 复制:将 export JAVA_HOME=/opt/module/jdk1.8.0_144 复制出来(这是自己配置的,不一定一样)

配置 hadoop-env.sh 文件

​ 输入方式:vi hadoop-e(习惯使用TAB键)

​ 进入后:shift + g (跳转到最后一行)

​ 跳转到下一行:(快捷键)o

​ 在enter一下添加:(复制出来的环境变)export JACA_HOME=/opt/module/jdk1.8.0_144

​ 保存退出:wq

配置 yarn-env.sh 文件

​ 输入方式:vi yarn-e(习惯使用TAB键)

​ 进入后:shift + g (跳转到最后一行)

​ 跳转到下一行:(快捷键)o

​ 在enter一下添加:(复制出来的环境变)export JACA_HOME=/opt/module/jdk1.8.0_144

​ 保存退出:wq

配置 mapred-env.sh 文件

​ 输入方式:vi mapred-e(习惯使用TAB键)

​ 进入后:shift + g (跳转到最后一行)

​ 跳转到下一行:(快捷键)o

​ 在enter一下添加:(复制出来的环境变)export JACA_HOME=/opt/module/jdk1.8.0_144

​ 保存退出:wq

配置 slaves 文件

​ 输入方式:vi sl(习惯使用TAB键)

​ 将 localhost 改为 bigdata01(你的主机名)。

​ 保存退出:wq

全部配置完后:
格式化:

​ 命令:hdfs namenode -format

​ 如果提示没有环境变量,检查环境变量是否配置错误(只显示一行)

启动集群:

​ 命令:start-all.sh

​ 进入后:yes

​ 回答后:输入你的主机密码 每次都需要输入(一共4次)

最后:

​ 输入:jps 查看进程是否启动

​ 显示了以下代码后 证明已经启动成功
在这里插入图片描述
​ 注:如果没有显示 NameNode 不能多次进行格式化,

​ 需要回到 /opt/module/hadoop-2.8.4 目录下 将data和 logs 删掉 : rm -rf data/* logs/*

​ 删掉以后在进行格式化 :hdfs namenode -format

​ 格式化后在启动:start-all.sh

​ 然后进入网页输入:[IP地址]:50070 (查看ip的方法–>ip addr—>ens33的)

​ 注:如果输入后什么都没有访问到;

​ 1) :号输入的是中文的

​ 2) 防火墙没有关:systemctl status firewalld (查看是否关闭防火墙)显示以下就关闭了

在这里插入图片描述

​ 3) 如果有 NameNode 却没有其他的进程 去建立的那个 logs 文件下查看

​ 步骤:先回到 /opt/module/hadoop-2.8.4 目录下 cd logs (进入logs目录)ll (查看文件)

​ 找没有进程的文件名以log结尾的进行查看,如 namenode 没有启动

​ 查看命令:cat hadoop-root-namenode-bigdata01.log

​ 一定会报错:删掉 data 和 logs 目录 (步骤上面有)

​ 显示了以下界面,证明搭建可能已经成功了

在这里插入图片描述

​ 查看Datanodes下是否连接了你的主机名,如果链接了,那就是完全成功了。

在这里插入图片描述

### 大数据比赛中的Hadoop安装与配置 #### 1. 准备工作环境 在准备环境中,确保所有服务器的时间同步以及无密码SSH登录已经设置完成。这一步骤对于集群间的通信至关重要。 #### 2. 配置文件调整 针对`/usr/local/hadoop/etc/hadoop`目录下的配置文件进行必要的编辑[^3]。具体来说: - **workers 文件** 这个文件列出了所有的DataNode节点名称或IP地址。 - **core-site.xml** 设置NameNode的URI和其他核心参数,例如默认的FS URI如下所示: ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://namenode_address:8020</value> </property> </configuration> ``` - **hdfs-site.xml** 此处定义了HDFS的具体属性,比如副本数量等重要选项: ```xml <configuration> <property> <name>dfs.replication</name> <value>3</value> </property> </configuration> ``` - **mapred-site.xml** 修改此文件来指定MapReduce框架使用的资源管理器位置[^1]: ```xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> ``` - **yarn-site.xml** YARN的相关设定在此文档内完成,包括ResourceManager的位置等信息。 #### 3. 使用Ambari简化部署流程 考虑到手动配置可能存在的复杂性和错误风险,在实际操作过程中可以考虑采用Apache Ambari工具来进行更高效的管理和维护工作。通过图形界面指导用户逐步完成从软件包的选择到最终的服务启动整个过程,并且能够方便地实现跨多台机器的大规模部署任务[^2]。 ```bash # 启动Ambari Server并访问Web UI页面按照提示继续后续步骤 ambari-server start ``` #### 4. 测试验证 最后不要忘记执行一些简单的测试命令以确认集群是否正常运行,如上传下载文件、提交作业等基本功能测试。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值