Hadoop 3.x 入门 - 记录躺过的坑

本文记录了在配置Hadoop 3.x伪分布式环境时遇到的问题,包括节点启动报错、Namenode web服务无法访问、Datanode启动失败、YARN启动报错以及在YARN下执行MapReduce任务时的错误,通过解决环境变量、防火墙设置、集群ID不一致和配置文件错误等问题,成功解决了所有故障。

一、 伪分布式节点启动报错

./start-dfs.sh 

Starting namenodes on [10.1.4.57]
ERROR: Attempting to operate on hdfs namenode as root
ERROR: but there is no HDFS_NAMENODE_USER defined. Aborting operation.
Starting datanodes
ERROR: Attempting to operate on hdfs datanode as root
ERROR: but there is no HDFS_DATANODE_USER defined. Aborting operation.
Starting secondary namenodes [10.1.4.57]
ERROR: Attempting to operate on hdfs secondarynamenode as root
ERROR: but there is no HDFS_SECONDARYNAMENODE_USER defined. Aborting operation.

环境变量 hadoop-env.sh 中指定用户名:

export HDFS_DATANODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root

    再次启动ok。***_USER设置错误,会报

cannot set priority of datanode process 32156

二、 namenode节点启动成功,web服务无法访问

    检查linux系统的防火墙设置

firewall-cmd    --state

    CentOS-7 防火墙默认使用的是firewall,与之前的版本使用iptables不一样。防火墙操作命令:

关闭防火墙:systemctl stop firewalld.service
开启防火墙:systemctl start firewalld.service
关闭开机启动:systemctl disable firewalld.service
开启开机启动:systemctl enable firewalld.service

    关闭防火墙并设置禁用开机启动后,成功访问 http://ip:9870/

 

三、 datanode启动出错

2018-04-23 10:33:29,644 INFO org.apache.hadoop.hdfs.server.common.Storage: Lock on /tmp/hadoop-root/dfs/data/in_use.lock acquired by nodename 3692@localhost
2018-04-23 10:33:29,647 WARN org.apache.hadoop.hdfs.server.common.Storage: Failed to add storage directory [DISK]file:/tmp/hadoop-root/dfs/data
java.io.IOException: Incompatible clusterIDs in /tmp/hadoop-root/dfs/data: namenode clusterID = CID-103c769e-5fff-427c-9913-1004480fce63; datanode clusterID = CID-659951c9-642c-4325-8dc3-79f5edbdf175
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:736)
	at org.apache.hadoop.hdfs.server.datanode.DataStorage.loadStorageDirectory(DataStora
当尝试在HDFS (Hadoop Distributed File System) 的完全分布式模式下启动HDFS进程时失败,一般会遇到以下几个原因: 1. **配置文件问题**:HDFS的配置文件(如core-site.xml、hdfs-site.xml等)可能存在错误,比如路径不正确、权限设置不当或者资源不足(如磁盘空间不足)。 2. **环境变量**:JAVA_HOME、HADOOP_HOME等环境变量可能未正确设置,或者指向的不是Hadoop的安装目录。 3. **NameNode和DataNodes未启动**:如果只有部分节点启动,那么HDFS集群不会成功。需要检查所有NameNode(主备)和DataNode是否都已启动并互相发现。 4. **网络问题**:如果集群内的节点之间网络连接有问题,可能导致NameNode无法分发任务给DataNodes。 5. **资源竞争**:如果集群中有大量的并发请求或者资源分配不合理,可能会引发资源争抢,从而导致启动失败。 6. **硬件故障**:例如某个DataNode节点磁盘损坏或存储设备未初始化。 7. **软件版本冲突**:不同版本的Hadoop组件可能存在兼容性问题。 为了解决这个问题,你可以按照以下步骤排查: 1. 查看Hadoop的日志文件,寻找具体的错误提示。 2. 核实配置文件无误,并调整必要的参数。 3. 确保所有依赖的服务(如Zookeeper)已经正常运行。 4. 调整或增加所需的资源。 5. 使用`jps`命令检查各个Hadoop进程是否正在运行。 6. 分析并修复网络问题,确保节点间通信畅通。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值