Hadoop分布式集群

CentOS7系统基础配置

  1. ip

  2. hostname

  3. hosts

  4. firewalld

  5. crontab-ntpdate

  6. JDK(/data/soft/jdk8

  7. Hadoop(/data/soft/hadoop3


Hadoop分布式集群配置文件

  1. /data/soft/hadoop3/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/data/soft/jdk8
export HADOOP_LOG_DIR=/data/hadoop_repo/logs/hadoop
  1. /data/soft/hadoop3/etc/hadoop/core-site.xml
<configuration>
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://bigdata01:9000</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/data/hadoop_repo</value>
	</property>
	<property>
		<name>fs.trash.interval</name>
		<value>0</value>
	</property>
</configuration>
  1. /data/soft/hadoop3/etc/hadoop/hdfs-site.xml
<configuration>
	<property>
		<name>dfs.replication</name>
		<value>2</value>
	</property>
</configuration>
  1. /data/soft/hadoop3/etc/hadoop/mapred-site.xml
<configuration>
	<property>
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>
</configuration>
  1. /data/soft/hadoop3/etc/hadoop/yarn-site.xml
<configuration>
	<property>
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
	</property>
	<property>
		<name>yarn.nodemanager.env-whitelist</name>
		<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
	</property>
</configuration>
  1. /data/soft/hadoop3/etc/hadoop/workers
bigdata02
bigdata03
  1. /data/soft/hadoop3/sbin/start-dfs.sh
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
  1. /data/soft/hadoop3/sbin/stop-dfs.sh
HDFS_DATANODE_USER=root
HDFS_DATANODE_SECURE_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
  1. /data/soft/hadoop3/sbin/start-yarn.sh
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
  1. /data/soft/hadoop3/sbin/stop-yarn.sh
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root




完成上述配置后需要分别在每台服务器上配置ssh免密登录

### Hadoop分布式集群的搭建、配置与原理 #### 一、Hadoop分布式集群概述 Hadoop是一种开源框架,用于处理大规模数据集的分布式计算。它主要由两个核心组件组成:HDFS(Hadoop Distributed File System)和MapReduce。其中,HDFS负责分布式存储,而MapReduce则提供并行化计算能力。 --- #### 二、Hadoop分布式集群的搭建过程 1. **安装依赖工具** 安装必要的系统工具以支持Hadoop运行环境,例如`psmisc`, `nc`, `rsync`, `lrzsz`, `ntp`, `libzstd`, `openssl-static`, `tree`, 和`iotop`等[^4]。 2. **配置环境变量** 将Hadoop及其相关路径添加到系统的环境变量中,并通过命令`source /etc/profile`重新加载环境变量[^3]。验证Java和Hadoop版本是否正常工作: ```bash java -version hadoop version ``` 3. **编辑Hadoop配置文件** 修改Hadoop的主要配置文件来适配当前的硬件资源和网络拓扑结构。这些文件通常位于`$HADOOP_HOME/etc/hadoop`目录下,主要包括以下几个文件: - **core-site.xml**: 设置HDFS的默认名称节点地址,如`hdfs://master:9000`[^1]。 ```xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration> ``` - **hdfs-site.xml**: 配置副本数量和其他高级选项。 - **mapred-site.xml**: MapReduce作业的相关参数设置。 - **yarn-site.xml**: YARN资源配置和服务定义。 - **workers (原名slaves)**: 列出所有DataNode所在的主机列表[^2]。 - **hadoop-env.sh**, **mapred-env.sh**, **yarn-env.sh**: 环境脚本,指定JDK路径及其他初始化参数。 4. **启动服务** 使用如下命令依次启动NameNode, DataNodes以及YARN ResourceManager和NodeManager服务: ```bash start-dfs.sh start-yarn.sh jps # 检查各进程状态 ``` --- #### 三、Hadoop分布式集群的工作原理 1. **HDFS架构设计** - 数据被分割成固定大小的数据块,默认情况下每块为128MB或更大尺寸。 - 这些数据块会被复制多份存放在不同的物理机上,从而实现高可用性和容错机制。 2. **MapReduce编程模型** 用户提交的任务经过拆分后分配给多个节点上的Mapper函数执行初步转换操作;随后中间结果再经Shuffle阶段聚合至Reducer部分完成最终汇总统计运算逻辑。 3. **YARN调度管理器** Yet Another Resource Negotiator(YARN),作为新一代资源管理系统引入了更灵活的应用程序框架支持方式——允许开发者自定义Container容器规格请求满足特定需求场景下的弹性伸缩特性。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值