Hadoop安装以及配置文件初始化修改_hadoop初始化出现url file-优快云博客

本文链接：https://blog.youkuaiyun.com/A_____lan/article/details/93464346

本文档详细介绍了Hadoop的安装步骤，包括在Linux环境下创建cloud目录、解压安装包，以及对hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml等配置文件的修改，如设置默认文件系统、临时文件目录、复本数量、运行框架和辅助服务等，确保Hadoop环境的正确配置。

一、hadoop安装

1、上传安装包

2、在家目录创建一个cloud目录
mkdir /home/cloud

3、解压
tar -zxvf hadoop-1.1.2.tar.gz -C /home/cloud/

二、hadoop配置文件修改

1、修改hadoop-env.sh
vim hadoop-env.sh

export JAVA_HOME=/usr/java/jdk1.6.0_45

2、修改core-site.xml
vim core-site.xml

<!-- 指定HDFS的老大即为namenode的通信地址 -->
<!-- itcast为主机名也可以配置IP，或者localhost -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://itcast:9000</value>
</property>
<property>
    <name>hadoop.tmp.dir</name>
    <value>/cloud/hadoop-1.1.2/tmp</value>
</property>

fs.defaultFS：用来设置Hadoop的默认文件系统，HDFS的守护线程通过该属性项来确定HDFS namenode的主机及端口，如果没有指定，就是用默认的本地文件系统。
hadoop.tmp.dir：指定hadoop运行时产生文件的存放目录，比如当你上传文件到hdfs时，mapreduce产生的文件等都存储在这里

3、修改hdfs-site.xml

<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

dfs.replication：文件系统复本数量，我们设置为1，HDFS就不会按默认设置将文件系统复本设置为3，当在单独一个datanode运行时，不会持续给出复本不足的错误

4、修改mapred-site.xml

<property>
    <!--告诉hadop以后MR运行在YARN上-->
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

mapreduce.framework.name：设置为yarn，指的是使用yarn运行mapreduce程序，yarn是hadoop 2引入的，是用来改善mapreduce的实现，由于具有通用性，yarn同样也可以支持其他的分布式计算模式。
5、修改yarn-site.xml

<property>
<!--以后nodemanager获取数据的方式为shuffle方式-->
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
<!--指定yarn的老大resourcemanager的地址 itcast01为主机名-->
    <name>yarn.resourcemanager.hostname</name>
    <value>itcast01</value>
</property>

yarn.nodemanager.aux-services：NodeManager上运行的附属服务。需配置成mapreduce_shuffle，才可运行MapReduce程序
yarn.resourcemanager.hostname：RM的hostname，
参考：apache 默认配置文件 yarn-default.xml
3、将hadoop添加到环境变量

export HADOOP_HOME=/home/cloud/hadoop-1.1.2
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin

linux引用环境变量使用：分割，windows引用环境变量使用；分割。