在Linux上搭建Hadoop集群

最新推荐文章于 2024-10-07 16:43:40 发布

原创最新推荐文章于 2024-10-07 16:43:40 发布 · 554 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #大数据基础 #集群搭建 #大数据入门

大数据基础专栏收录该内容

1 篇文章

订阅专栏

本文详细介绍了如何在Linux上搭建Hadoop集群，包括下载Jdk和Hadoop，配置JDK，设置SSH免密登录，解压安装Hadoop，配置环境变量，并逐步解析了core-site.xml, hdfs-site.xml, yarn-site.xml和mapred-site.xml等关键配置文件，最后进行了格式化HDFS和启动集群的验证。" 122554823,11707918,SPSS单因素方差分析详解,"['统计学', '数据分析', 'SPSS软件']

在Linux上搭建Hadoop集群

下载软件：

（1）Jdk

（2）Hadoop包

步骤:

1.修改/etc/hosts

2.配置JDK 安装

解压：tar -zxvf jdk-8u172-ea-bin-b03-linux-x64-18_jan_2018.tar.gz

cd /opt/ 进入opt

Vi /etc/profile 配置etc/profile，修改JAVA_HOME

echo $JAVA_HOME 查看配置JAVA_HOME，为空，修改无效

source /etc/profile echo $JAVA_HOME 重新查看，/usr/java/jdk1.8.0_161，修改生效

检查jdk安装好，java -version

3.配置SSH（免密码登录）

ssh-Keygen -t rsa ll .ssh/ 私钥和公钥移动公钥赋予权限

tar zxf hadoop-2.7.4.tar.gz 解压hadoop压缩包查看ll

cd hadoop-2.7.4 ll

pwd //查看路径/home/hadoop/opt/hadoop-2.7.4

vi /etc/profil 配置$HADOOP_HOME=/home/hadoop/opt/hadoop-2.7.4

source /etc/profile

echo $HADOOP_HOME

cd /home/hadoop/opt/hadoop-2.7.4/etc/hadoop/

配置环境变量：

Vi core-site.xml：

<name>fs.default.name</name>

<value>hdfs://bigdata:9000</value>

</property>

<name>hadoop.tmp.dir</name>

<value>/home/hadoop/opt/hadoop-2.7.4/current/tmp</value>

</property>

<name>fs.trash.interval</name>

</property>

</configuration>

Vi hdfs-site.xml

<name>dfs.namenode.di</name>

<value>/home/hadoop/opt/hadoop-2.7.4/current/dfs/name</value>

</property>

<name>dfs,datanode.data.dir</name>

<value>/home/hadoop/opt/hadoop-2.7.4/current/data</value>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.permissions.superusergroup</name>

<value>staff</value>

</property>

<name>dfs.permissions.enabled</name>

<value>false</value>

</property>

</configuration>

Vi yarn-site.xml

<name>yarn.resourcemanager.hostname</name>

<value>bigdata</value>

</property>

<name>yarn.nodemanager.aux.services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux.services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.resourcemanager.address</name>

<value>bigdata:18040</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>bigdata:18030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>bigdata:18025</value>

</property>

<name>yarn.resource.manager.admin.address</name>

<value>bigdata:18141</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>bigdata:18088</value>

</property>

<name>yarn.log-aggregation-enable</name>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

<name>yarn.log-aggregation.retain.check.interval-seconds</name>

</property>

<name>yarn.nodemanager.remote-app-log-dir</name>

</property>

<name>yarn.nodemanager.remote-app-log-dir-suffix</name>

</property>

Vi mapred-site.xml

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobtracker.http.address</name>

<value>bigdata:50030</value>

</property>

<name>mapreduce.jobhistory.address</name>

<value>bigdata:10020</value>

</property>

<name>mapreduce:jobhistory.webapp.address</name>

<value>bigdata:19888</value>

</property>

<name>mapreduce.jobhistory.done-dir</name>

<value>/jobhistory/done</value>

</property>

<name>mapreduce.intermediate-done-dir</name>

<value>/jobhistory/done_intermediate</value>

</property>

<name>mapreduce.job.ubertask.enable</name>

</property>

Vi slaves

Bigdata

vi hadoop-env.sh 修改$JAVA_HOME

4.格式化hdfs

hdfs namenode -format

注：hdfs namenode格式化时出现错误/home/hadoop/opt/hadoop-2.7.4/bin/hdfs:行304: /usr/bin/java/bin/java: 不是目录 /home/hadoop/opt/hadoop-2.7.4/bin/hdfs: 第 304 行:exec: /usr/bin/java/bin/java: 无法执行: 不是目录

Jdk安装路径出现问题，which java的路径并不能配置到/etc/profile中去，一下才是实际路径

5.启动hadoop集群

/home/hadoop/opt/hadoop-2.7.4/sbin/start-all.sh

6.验证Hadoop集群

（1）Jps

（2）关闭防火墙或者在防火墙规则中开放这些端口

hdfs http://bigdata:50070/

yarn http://bigdata:18088/