由于Hadoop机器内存不足,所以需要把数据mapred进来跑。
这样,就需要,同一个key下的输入数据是有序的,即:对于keyA的数据,要求data1先来,之后data2再来……。所以需要对data进行二次排序。
-D stream.num.map.output.key.fields=2
这个,可以设置在map之后,进行partition时,使用前两个tab的数据进行排序(包括key和data中的第一列)。
具体参考:http://blog.youkuaiyun.com/xhu_eternalcc/article/details/47147425
http://www.dreamingfish123.info/?p=1102