五、安装Hadoop
终于见到Hadoop几个字了,说明快要大功告成啦o(∩∩)o...
1.Hadoop目录结构
由于Hadoop中要求所有机器hadoop的部署目录结构都要相同,并且都要有同名账号
同名帐号ok了,现在需要在两台机器上创建相同目录结构:/home/jing/HadoopInstall
将下载好的hadoop压缩包解压到HadoopInstall中,或者直接在压缩包上右键“解压缩”到HadoopInstall中,图形化还是便利些。这样产生了新文件夹hadoop-0.20.2
2.Hadoop环境配置
在jing1中,打开hadoop-0.20.2目录下的conf文件夹,修改配置文件
(1)修改hadoop_env.sh,输入:
export HADOOP_HOME=/home/jing/HadoopInstall/hadoop-0.20.2
export JAVA_HOME=/usr/java/jdk1.6.0_22
注:第一句需要添加,第二句文件中已经有了,只需要去除注释#符号,修改后面的jdk安装路径。
(2) 修改masters
删除localhost,改为jing1
(3)修改slaves
删除localhost,改为jing2
注:如果是伪分布式Hadoop,这里改为jing1
(4)修改core-site.xml
在configuration之间加入:
<property>
<name>fs.default.name</name>
<value>hdfs://jing1:9000</value>
<description>The name and URI of the default FS.</description>
</property>
(5)修改mapred-site.xml
在configuration之间加入:
<property>
<name>mapred.job.tracker</name>
<value>jing1:9001</value>
<description>Map Reduce jobtracker</description>
</property>
(6)修改hdfs-site.xml
在configuration之间加入:
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication</description>
</property>
注:<value>值代表slave的个数,伪分布式hadoop设置为1,2个datanode则设为2,以此类推。本文虽然两台机器,但也只有一个datanode,所以设为1。
(7)环境配置的拷贝
cd到conf文件夹下,利用scp命令将上面修改的文件,替代jing2中的相应文件
3.运行HDFS
HDFS是Hadoop的文件系统。
在jing1中进入hadoop目录下
先初始化namenode
bin/hadoop namenode -format
然后两台机器分别启动Hadoop
bin/start-all.sh
看一下输出的信息,大意是启动了namenode,secondarynamenode,jobtracker,tasktracker,datanode,那应该是成功了。
激动人心的一刻到来了,打开浏览器,通过http://jing1:50070查看,看到了Hadoop运行状态页面。
参考文献:
最新版Hadoop
ubuntu修改hostname
Ubuntu下 SSH服务端启动
UBUNTU下如何开启SSHD服务
终于见到Hadoop几个字了,说明快要大功告成啦o(∩∩)o...
1.Hadoop目录结构
由于Hadoop中要求所有机器hadoop的部署目录结构都要相同,并且都要有同名账号
同名帐号ok了,现在需要在两台机器上创建相同目录结构:/home/jing/HadoopInstall
将下载好的hadoop压缩包解压到HadoopInstall中,或者直接在压缩包上右键“解压缩”到HadoopInstall中,图形化还是便利些。这样产生了新文件夹hadoop-0.20.2
2.Hadoop环境配置
在jing1中,打开hadoop-0.20.2目录下的conf文件夹,修改配置文件
(1)修改hadoop_env.sh,输入:
export HADOOP_HOME=/home/jing/HadoopInstall/hadoop-0.20.2
export JAVA_HOME=/usr/java/jdk1.6.0_22
注:第一句需要添加,第二句文件中已经有了,只需要去除注释#符号,修改后面的jdk安装路径。
(2) 修改masters
删除localhost,改为jing1
(3)修改slaves
删除localhost,改为jing2
注:如果是伪分布式Hadoop,这里改为jing1
(4)修改core-site.xml
在configuration之间加入:
<property>
<name>fs.default.name</name>
<value>hdfs://jing1:9000</value>
<description>The name and URI of the default FS.</description>
</property>
(5)修改mapred-site.xml
在configuration之间加入:
<property>
<name>mapred.job.tracker</name>
<value>jing1:9001</value>
<description>Map Reduce jobtracker</description>
</property>
(6)修改hdfs-site.xml
在configuration之间加入:
<property>
<name>dfs.replication</name>
<value>1</value>
<description>Default block replication</description>
</property>
注:<value>值代表slave的个数,伪分布式hadoop设置为1,2个datanode则设为2,以此类推。本文虽然两台机器,但也只有一个datanode,所以设为1。
(7)环境配置的拷贝
cd到conf文件夹下,利用scp命令将上面修改的文件,替代jing2中的相应文件
3.运行HDFS
HDFS是Hadoop的文件系统。
在jing1中进入hadoop目录下
先初始化namenode
bin/hadoop namenode -format
然后两台机器分别启动Hadoop
bin/start-all.sh
看一下输出的信息,大意是启动了namenode,secondarynamenode,jobtracker,tasktracker,datanode,那应该是成功了。
激动人心的一刻到来了,打开浏览器,通过http://jing1:50070查看,看到了Hadoop运行状态页面。
参考文献:
最新版Hadoop
ubuntu修改hostname
Ubuntu下 SSH服务端启动
UBUNTU下如何开启SSHD服务