Wordcount是什么?
Wordcount简单来说就是单词统计,把一个文件内的单词进行统计一遍,这个经典的案例呢,会伴随我们学习hadoop一直到最后。这个统计无疑是很重要的。
工具准备:
- linux系统
- 搭建好的Hadoop环境
案例演示步骤
(1)创建文件夹 wciput(当然,首先你得在/opt/module/hadoop-2.7.2,这个路径下面,这个是博主自己创建得路径,不同情况,不同路径)
[zhl@localhost hadoop-2.7.2]$ mkdir wciput
(2)接着在这个文件夹下面创建一个文件wc.input
[zhl@localhost wciput]$ touch wc.input
[zhl@localhost wciput]$ vim wc.input
tianyi huichao lihua
zhanghailin zhucon
zhanghailin zhucong zhuchong shagua
woaini ILOVEYOU shagua woainio
zhuzhu zhuzhu zhuzhu
并且保存下来
(3)接着我们执行Word的语句:
[zhl@localhost hadoop-2.7.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wciput/ wcoutput
从这里就可以看到,执行成功的一些语句
(4)查看结果
[zhl@localhost hadoop-2.7.2]$ cd wcoutput/
[zhl@localhost wcoutput]$ ll
总用量 4
-rw-r--r--. 1 zhl zhl 119 8月 6 21:24 part-r-00000
-rw-r--r--. 1 zhl zhl 0 8月 6 21:24 _SUCCESS
[zhl@localhost wcoutput]$ cat part-r-00000
ILOVEYOU 1
huichao 1
lihua 1
shagua 2
tianyi 1
woaini 1
woainio 1
zhanghailin 2
zhuchong 1
zhucon 1
zhucong 1
zhuzhu 3
从以上可以看出来,_SUCCESS文件是表明已经成功了,没有错误,所以只是一个成功的标志。
在part-r-00000文件中可以看到,part文件里面保存了我们之前在wc.input里面保存的一些单词的统计次数。
以上就是Wordcount经典案例的所有演示内容,如果有错误的话,希望各位指出来。