1、启动Hadoop
在上一篇文章中,已经搭建好了Hadoop环境,现在我们启动Hadoop,但是在启动Hadoop之前我们要做一些配置工作。
配置JAVA_HOME
进入到hadoop安装目录下的conf文件夹,这里为:/opt/hadoop-1.2.1/conf,编辑此文件夹中的hadoop-env.sh如下:
# Set Hadoop-specific environment variables here.
# The only required environment variable is JAVA_HOME. All others are
# optional. When running a distributed configuration it is best to
# set JAVA_HOME in this file, so that it is correctly defined on
# remote nodes.
# The java implementation to use. Required.
export JAVA_HOME=/opt/jdk1.7.0_25
# Extra Java CLASSPATH elements. Optional.
# export HADOOP_CLASSPATH=
# The maximum amount of heap to use, in MB. Default is 1000.
# export HADOOP_HEAPSIZE=2000
# Extra Java runtime options. Empty by default.
# export HADOOP_OPTS=-server
接着我们配置下core-site.xml,如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop/hadoop-${user.name}</value>
</property>
</configuration>
然后配置hdfs-site.xml:<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
然后配置mapred-site.xml<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
<property>
<name>mapred.child.tmp</name>
<value>/opt/temp</value>
</property>
</configuration>
配置完之后,我们就可以启动Hadoop了,在启动之前一定要先格式化namenode
由于我们在/etc/profile文件中配置了Hadoop的安装目录,所以我们在任何路径下直接使用start-all.sh启动Hadoop即可。
这里共启动了五个线程,分别是namenode、datanode、secondarynamenode、jobtracker、tasktracker,这五个线程将在下篇博客进行介绍,本篇博客先专注wordCount程序的运行。
然后我们可以使用jps查看正在运行的进程:
如果能正常启动5个进程的话,我们就可以正常访问hadoop了,如下:
2、运行WordCount程序
准备测试数据,在本地磁盘上建立两个输入文件f_1和f_2
在hdfs上建立一个input目录
将f_1和f_2复制到hdfs中
执行wordcount
执行完成之后查看结果
这里我们可以看到使用wordcount程序可以帮助我们统计出两个文本中每个单词出现的次数。具体的处理过程在下篇博客中进行介绍