Hadoop伪分布环境部署之Hadoop

最新推荐文章于 2024-08-06 22:59:32 发布

原创最新推荐文章于 2024-08-06 22:59:32 发布 · 622 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #延云YDB #Spark #云计算 #大数据

记录专栏收录该内容

19 篇文章

订阅专栏

本文提供了一步一步的指导，帮助读者了解如何在Linux环境下安装和配置Hadoop集群，包括JDK与Hadoop的环境变量配置、SSH无密码登录设置、关闭防火墙、hosts文件配置、关键的Hadoop配置文档变量设定、格式化namenode、启动守护进程等步骤。

将JDK与Hadoop解压到/opt/ydbsoftware
使用 tar -zxvf 解压 tar.gz文件
使用 unzip 解压.zip文件
1.配置JAVA_HOME及HADOOP_HOME
关于JAVA_HOME配置
HADOOP_HOME配置

使用vi命令打开/etc/profile/
在文档下方添加：
export HADOOP_HOME=/opt/ydbsoftware/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
在path变量中添加：
$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

2.配置SSH无密码登陆

ssh-keygen
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys

3.关闭防火墙

iptables -P INPUT ACCEPT
iptables -P FORWARD ACCEPT
iptables -P OUTPUT ACCEPT
iptables -F
chkconfig iptables off
/etc/init.d/iptables stop

4.配置hosts文件

hostname ydbmaster
vi /etc/sysconfig/network
vi /etc/hosts

5常见的hadoop配置文档变量
core-site.xml配置项有：

<property>
  <name>fs.defaultFS</name>
  <value>hdfs://master</value>
</property>

#设置默认的hdfs文件系统名uri，uri的作用是用来确定一个文件系统的主机，端口号等
<property>
  <name>hadoop.tmp.dir</name>
  <value>/data/tmp/hadoop</value>
</property>

#hadoop的临时文件目录

hadoop-env.sh配置项有：

export JAVA_HOME=/opt/ydbmaster/jdk1.8.0_60
# java_home
export HADOOP_LOG_DIR=/data/log/hadoop
# hadoop的log目录
export HADOOP_PID_DIR=/data/run/hadoop
# hadoop的pid目录
export YARN_LOG_DIR=/data/log/yarn
# yarn的log目录

hdfs-site.xml配置项有：

#副本数
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>
#名称节点列表目录
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/data/hadoop/hdfs/nn</value>
</property>
#数据节点目录
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/data/hadoop/hdfs/dn</value>
</property>
#Snamenode目录
<property>
  <name>dfs.namenode.checkpoint.dir</name>
  <value>/data/hadoop/hdfs/sn</value>
</property>
#SnamenodeUI页面
<property>
  <name>dfs.namenode.secondary.http-address</name>
  <value>master:50090</value>
</property>

yarn-site.xml配置项有

#配置主机的hosts
 <property>
  <name>yarn.resourcemanager.hostname</name>
  <value>master</value>
</property>
#nodemanager的总可用内存 
<property>
  <name>yarn.nodemanager.resource.memory-mb</name>
  <value>6144</value>
</property>
#nodemanager可用的cpu vcore 数，系统核数的80%
<property>
  <name>yarn.nodemanager.resource.cpu-vcores</name>
  <value>6</value>
</property>
#yarn的最小计费机制，改为32m
<property>
  <name>yarn.scheduler.minimum-allocation-mb</name>
  <value>32</value>
</property>
#yarn能够使用的内存最大值，配置为系统内存的80%
<property>
  <name>yarn.scheduler.maximum-allocation-mb</name>
  <value>6144</value>
</property>
#yarn能够使用的最小vcore数
<property>
  <name>yarn.scheduler.minimum-allocation-vcores</name>
  <value>1</value>
</property>
#yarn能够使用的最大vcore数，系统vcore数的80%
<property>
  <name>yarn.scheduler.maximum-allocation-vcores</name>
  <value>6</value>
</property>
#yarn的内存检查机制，设置成false
<property>
  <name>yarn.nodemanager.pmem-check-enabled</name>
  <value>false</value>
</property>
#同上
<property>
  <name>yarn.nodemanager.vmem-check-enabled</name>
  <value>false</value>
</property>
#yarn名称节点log目录
<property>
  <name>yarn.nodemanager.log-dirs</name>
  <value>/data/log/yarn</value>
</property>

6.格式化namenode
进入hadoop根目录，输入如下命令

./bin/hdfs namenode -format

7.开启namenode 和datanode 守护进程

./sbin/start-dfs.sh

8.检测
通过jps命令；判断是否成功启动，若成功启动则会列出如下进程: “NameNode”、”DataNode”和SecondaryNameNode，如果 SecondaryNameNode 没有启动，请运行 sbin/stop-dfs.sh 关闭进程，然后再次尝试启动尝试
9.排除异常
通过查看启动日志分析启动失败原因，
有时 Hadoop 无法正确启动，如 NameNode 进程没有顺利启动，这时可以查看启动日志来排查原因，注意几点：
启动时会提示形如 “dblab: starting namenode, logging to /usr/local/hadoop/logs/hadoop-hadoop-namenode-dblab.out”，
其中 dblab 对应你的主机名，但启动的日志信息是记录在 /usr/local/hadoop/logs/hadoop-hadoop-namenode-dblab.log 中，所以应该查看这个后缀为 .log 的文件；
每一次的启动日志都是追加在日志文件之后，所以得拉到最后面看，看下记录的时间就知道了。
一般出错的提示在最后面，也就是写着 Fatal、Error 或者 Java Exception 的地方。
可以在网上搜索一下出错信息，看能否找到一些相关的解决方法。
10.启动yarn

./sbin/start-yarn.sh

11.启动历史服务器

./sbin/mr-jobhistory-daemon.sh start historyserver

启动历史服务器，开启历史服务器，才能在Web中查看任务运行情况

注：本文中有对其他笔者内容的摘录，在此感谢各位大牛的无私奉献，如内容有误请在评论中留言，我会尽快改正，望诸位不吝赐教。