CentOS下安装Hadoop伪分布集群踏坑之路

最新推荐文章于 2024-06-05 15:31:14 发布

a_victory

最新推荐文章于 2024-06-05 15:31:14 发布

阅读量550

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据学习文章标签： centos hadoop 虚拟机集群

本文链接：https://blog.youkuaiyun.com/a_victory/article/details/53437237

大数据学习专栏收录该内容

4 篇文章

订阅专栏

本文详细介绍了Hadoop集群的配置文件设置，包括core-site.xml、hdfs-site.xml等关键配置项，并针对datanode启动失败的问题给出了具体解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.hadoop/etc/hadoop下的配置文件

core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/hadoop/temp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.hadoop.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hadoop.groups</name>
<value>*</value>
</property>
</configuration>

hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/hadoop/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>

yarn-site.xml

<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>

2.注意点

(1) ssh保证master和slave1和slave2相互之间互通

(2) 注意hadoop2.X已经不使用jobtracker和tasktracker了，取而代之的是nodemanager和resourcemanager

(3) 可以启动slave的datanode，而另一个slave不行，一开始修改了权限，但是发现不行，一运行权限又被改回来，

Hadoop的datanode无法启动
hdfs-site中配置的dfs.data.dir为/usr/local/hadoop/hdfs/data
用bin/hadoop start-all.sh启动Hdoop，用jps命令查看守护进程时，没有DataNode。
访问http://localhost:50070，点击页面中的Namenode logs链接，在logs页面点击hadoop-hadoop-datanode-ubuntu.log 链接，
发现在日志中有此提示：Invalid directory in dfs.data.dir: Incorrect permission for /usr/local/hadoop/hdfs/data, expected: rwxr-xr-x, while actual: rwxr-xrwx 。原因是data文件夹权限问题，执行：chmod g-w /usr/local/hadoop/hdfs/data，修改文件夹权限后，再次启动Hadoop，问题解决。

而且一直以为 rm -rf name/* data/* tmp/* logs/*就可以，后来暴力将这些目录也一并删除，发现可以启动了