hadoop streaming 技术整理

最新推荐文章于 2020-12-29 01:32:58 发布

原创最新推荐文章于 2020-12-29 01:32:58 发布 · 1.7k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #output #框架 #分布式计算 #merge #网络

开发专栏收录该内容

10 篇文章

订阅专栏

本文详细梳理了Hadoop Streaming的工作原理，包括分布式计算框架、mapper和reducer的交互过程、数据处理逻辑以及跨语言支持。通过分析map-reduce流程，解释了数据如何在mapper与reducer之间传输、排序和合并。此外，还探讨了如何在压缩文件与split支持之间取得平衡，以及streaming如何允许使用任意可执行程序进行map和reduce操作。

这两年零零散散用hadoop做了些项目，也看了些hadoop相关资料，每回都是现学现用。这回做kbuild项目，要用到hadoop streaming，发现很多东西又忘了，趁这次机会把hadoop相关的知识再过一遍整理下。

hadoop由两部分构成，分布式文件系统hdfs，和并行计算框架map-reduce。做应用开发，都是跟map-reduce打交道；hdfs逻辑上相对来说比较简单，可以参考：http://hadoop.apache.org/common/docs/current/hdfs_design.html 。map-reduce相关文档：http://hadoop.apache.org/common/docs/current/mapred_tutorial.html； http://hadoop.apache.org/common/docs/current/streaming.html 。

map一般做分布式计算，reduce做数据收集。map对外提供的编程接口：map(K1 key, V1 value, OutputCollector<K2, V2> output, Reporter reporter)，处理输入的KV对，处理结果放到output中；output的结果经由框架处理，传递给reduce，相应接口：reduce(K2 key, Iterator<V2> values, OutputCollector<K3, V3> output, Reporter reporter)，对一个key一系列的value处理结束后，结果再放入output中。这样一个简单的map-reduce就结束了。框架层面会帮我们处理以下事情：

1. mapper的数量如何确定，这些mapper该起在那些tasktracker机器上；

首先说一下hdfs上文件数据的存放形式，每个文件会被分成一定大小（比如256M）的block，每个block按照replica在多台机器上有备份。这个block的分割和文件是否压缩无关，只和文件大小相关，比如一个512M的gz文件，也会被分成两个block存放。如果文件没有压缩，就是支持split的，不指定mapper个数的话，默认就是一个block启动一个mapper处理；可以设置mapper到更多（每个mapper处理更少的数据），但不能更少。除非明确知道收益，不建议设置mapper个数，因为一般不会比系统默认的更高效。如果输入文件经过压缩了，比如gz格式，就不支持split，只能一个文件一个mapper。

hdfs可以提供当前block在哪台机器上，框架根据这个信息，可以把mapper在该台机器上启动。框架按照一个block大小启动一个mapper也是基于这个考虑的，避免了网络数据传输。另外文件压缩，如果压缩后文件还比较大，mapper过程中就会出现数据的网络传输，所以使用压缩特性，建议单个压缩文件在一个block大小以内。用压缩文件，一方面可以节省集群硬盘空间；另一方面对压缩文件的读取性能也不错。

2. 用户的文件数据怎么转换为key-value形式提供给map接口

从数据文件到mapper的key-value经过了几个过程：根据当前mapper的InputSplit信息（每个inputsplit包括文件名，起始地址，结束地址，数据所在机器列表等）构建InputFormat; InputFormat包含一个RecordReader实现；这个recordreader实现负责从inputsplit中解析出一个个key-value信息（读取数据使用hdfs接口）。比如常用的TextInputFormat包含了一个LineRecordReader，每回从InputSplit中读取一行，返回的key是当前字节位置（SEEK_CUR），value就是该行文本。看到这就不难理解，为什么压缩文件只能由单个mapper处理了，因为从中间没办法解析压缩数据。如果想即压缩又支持split，可以考虑SequenceFile。

这个逻辑里有个问题：inputsplit可能在一行的中间切开，这种如何处理？现在的逻辑是上一个inputsplit会读取到整行；当前inputsplit忽略这个不完整行。

3. map的输出在output中，数据如何组织，如何传输给相应的reduce

output实际是对本地文件调用的封装，collect动作会转化为本地文件写入动作，格式可以理解为：key-len,value-len,key,value。mapper的输出传递给reduce，这个过程被称作shuffle。mapper的输出首先在本地按照key进行排序，之后通过Partitioner确认key应该发往哪些reduce。默认情况下，是对key取个hash值然后取模reduce个数；如果我们想控制key应该具体发往哪个reduce，应该实现自己的partitioner。

4. reduce的key和values是怎么产生的，

map的数据经过shuffle后，到reduce机器上；再做一次merge sort；然后就构建了key和相应的valueiterator。

5. reduce怎么把output中的信息输出到hdfs上

output信息只是到本地，本地到hdfs由框架负责。

现在对map的数据产出到生成reduce输入的这个过程，还缺少详细了解，需要看看代码。

streaming是在map-reduce基础上开发的一个jar包，主要是为了跨语言支持；map和reduce可以是任意的可执行程序。streaming会把map作为单独进程start；把maper接口输入的key-value 直接写到map进程的stdin；同时截获map进程的stdout，把每一行解析成key-value对；然后调用mapper的output.collect 后面的事情都是框架来处理了。reduce的过程与此类似；只是reduce由于是基于stdin每行工作的，所以每行都要有key-value信息，不像java可以用key,value-iterator。进程要像输出一些进度信息，可以写到stderr中，streaming会截获这些信息，并识别是否为进度信息。