MapReduce初次体验
使用hadoop统计日源文件中的单词个数
1 创建一个数据源 message.txt
2 开启hadoop
>> start-dfs.sh
>> start-yarn.sh
测试开启是否成功:>>输入jps查看进程
3 把数据源 message.txt上传到linux上
4 在/usr/local/hadoop/share/hadoop/mapreduce目录下 通过hadoop的jar命令 运行wordcount类
cd /usr/local/hadoop/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /message.txt /wcresult
注意1:hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /message.txt /wcresult
运行hadoop-mapreduce-examples-2.7.3.jar包中wordcount 的类 数据源来源于/message.txt 结果数据会存放到/wcresult
注意2:运行hadoop jar命令时 位置必须是: /usr/local/hadoop/share/hadoop/mapreduce
注意3:目录/wcresult会被jar命令自动创建 不能存在(报错)
注意4:运行前开启yarn
创建一个自己的wordcount
1创建java项目
2导入jar包:并build path
3 创建Map类继承类Mapper
4 创建Reduce类继承Reducer
5 创建主类:
6 打包项目为jar文件
6.1 选择打包类型jar
6.2 选择jar文件名字和位置
6.3 选择jar文件运行的主类(main方法所在的类)
6.4 查看桌面有jar文件生成
7: 运行jar
7.1 开启hadoop和yarn
>>start-dfs.sh
>>start-yarn.sh
7.2 在/root下创建源文件message.txt 并编辑内容
>> touch /root/message.txt
>>vi /root/message.txt
7.3 把源文件上传到hdfs的根目录下
>> hadoop fs -put /root/message.txt /
7.4 把jar文件上传到/root下
7.5 运行jar文件 并指定源文件是hdfs根目录下的message.txt 目的目录是/wcresult02
>> hadoop jar WCAPP.jar /message.txt /wcresult02
8:查看结果 在hadoop的/wcresult02/part-r-00000文件中
>> hadoop fs -cat /wcresult02/part-r-00000