然后我们再来看看,如果我们自己去写一个MapReduce的程序,我们应该注意一些什么,
首先如果我们要写一个Mapper的话
可以看到,首先我们自己写的Mapper这个类要继承hadoop提供的mapper类
然后对于Mapper的输入是k,v对的形式,什么意思,就是说,MapReduce处理的时候,map处理的输入是个
k,v对的形式的数据,输入的,比如:
spark hello 如果一行的数据是这样的话,根据下标,0是开始位置,s表示下标1,p表示下标2,a表示下标3,r表示下标4,k表示下标5,空格是下标6,
h是下标7.
0123456789
那么作为一个输入的数据,就是0