【Hadoop实战02】在单机的Hadoop系统中运行WordCount程序

1、启动Hadoop        

 在上一篇文章中,已经搭建好了Hadoop环境,现在我们启动Hadoop,但是在启动Hadoop之前我们要做一些配置工作。

配置JAVA_HOME

进入到hadoop安装目录下的conf文件夹,这里为:/opt/hadoop-1.2.1/conf,编辑此文件夹中的hadoop-env.sh如下:

# Set Hadoop-specific environment variables here.

# The only required environment variable is JAVA_HOME.  All others are
# optional.  When running a distributed configuration it is best to
# set JAVA_HOME in this file, so that it is correctly defined on
# remote nodes.

# The java implementation to use.  Required.
export JAVA_HOME=/opt/jdk1.7.0_25

# Extra Java CLASSPATH elements.  Optional.
# export HADOOP_CLASSPATH=

# The maximum amount of heap to use, in MB. Default is 1000.
# export HADOOP_HEAPSIZE=2000

# Extra Java runtime options.  Empty by default.
# export HADOOP_OPTS=-server

接着我们配置下core-site.xml,如下:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
    <property>
           <name>fs.default.name</name>
           <value>hdfs://localhost:9000</value>
    </property>
    <property>
           <name>hadoop.tmp.dir</name>
           <value>/var/hadoop/hadoop-${user.name}</value>
    </property>
</configuration>
然后配置hdfs-site.xml:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
     <property>
        <name>dfs.replication</name>
        <value>1</value>
     </property>
</configuration>
然后配置mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
         <property>
                <name>mapred.job.tracker</name>
                <value>localhost:9001</value>
        </property>
        <property>
                <name>mapred.child.tmp</name>
                <value>/opt/temp</value>
        </property>

</configuration>

配置完之后,我们就可以启动Hadoop了,在启动之前一定要先格式化namenode


由于我们在/etc/profile文件中配置了Hadoop的安装目录,所以我们在任何路径下直接使用start-all.sh启动Hadoop即可。

这里共启动了五个线程,分别是namenode、datanode、secondarynamenode、jobtracker、tasktracker,这五个线程将在下篇博客进行介绍,本篇博客先专注wordCount程序的运行。
然后我们可以使用jps查看正在运行的进程:


如果能正常启动5个进程的话,我们就可以正常访问hadoop了,如下:


2、运行WordCount程序

准备测试数据,在本地磁盘上建立两个输入文件f_1和f_2


在hdfs上建立一个input目录


将f_1和f_2复制到hdfs中


执行wordcount


执行完成之后查看结果


这里我们可以看到使用wordcount程序可以帮助我们统计出两个文本中每个单词出现的次数。具体的处理过程在下篇博客中进行介绍

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值