首先,文题中说的JAVA菜逼就是我……
1. Hadoop streaming 是个什么东西?
Hadoop Streaming是一种可以让任何语言都能进行Map-Reduce操作的东西。
它会将整个数据的分片作为标准输入交给映射程序,然后要去映射程序将映射结果输出到标准输出供归约程序使用。
在一般的情况下,由于文件是成行存放的(如果文件中有二进制数据,在进入MR之前是不是可以Base-64编码一下,逐行存放)
首先,文题中说的JAVA菜逼就是我……
Hadoop Streaming是一种可以让任何语言都能进行Map-Reduce操作的东西。
它会将整个数据的分片作为标准输入交给映射程序,然后要去映射程序将映射结果输出到标准输出供归约程序使用。
在一般的情况下,由于文件是成行存放的(如果文件中有二进制数据,在进入MR之前是不是可以Base-64编码一下,逐行存放)