Hadoop原理与实践-优快云博客

http://www.aboutyun.com/thread-6179-1-1.html

hadoop 使用场景：

大数据量存储：分布式存储
日志处理: Hadoop擅长这个
海量计算: 并行计算
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目
搜索引擎:hadoop + lucene实现
数据挖掘：目前比较流行的广告推荐
大量地从文件中顺序读。HDFS对顺序读进行了优化，代价是对于随机的访问负载较高。
数据支持一次写入，多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存（文件很大，且顺序读没有局部性）
任何一台服务器都有可能失效，需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐

智能仪器推荐

http://www.aboutyun.com/forum.php?mod=viewthread&tid=5199&highlight=hadoop

hadoop是什么？
(1)Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。
(2)Hadoop就是一个分布式计算的解决方案.

hadoop能做什么？

hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。（2012年8月25新更新，天猫的推荐系统是hive，少量尝试mahout！）

什么是Map/Reduce

http://www.aboutyun.com/forum.php?mod=viewthread&tid=5541&highlight=hadoop

MapReduce的核心是shuffle,她对于mapreduce的效率起到了至关重要的作用，now,我把我对shuffle的理解过程简单介绍一下，如果有误还请指教阿。。

MapReduce的过程（针对一个map来说）：

每个Map在内存中都有一个缓存区，map的输出结果会先放到这个缓冲区当中，缓冲区有一个spill percent,这里默认是80%（可以手动进行配置），也就是说当输出到缓冲区中的内容达到80%时，就会进行spill（溢出）,溢出到磁盘的一个临时文件中，也就是说这80%的内容成为一个临时文件，这里还涉及到了一个partition的概念，一个临时文件里面是进行了分区的，并且分区的数量由reduce的数量决定，即不同的分区内容传给不同的reduce。当这80%的内容在溢出时，map会继续向那20%的缓冲中输出。插入一点，在缓冲区溢出到磁盘之前，会进行sort和combiner,然后才会写道磁盘中。这两个步骤很重要，尤其是combiner,它直接决定了MapReduce的效率。并且sort和combiner这两个处理发生在在shuffle的整个过程中。这样一个map执行下来，就会在磁盘上存储几个临时文件，然后会对这几个临时文件进行一个merge,合并程一个文件，这个文件中有n个partition,n是reduce的数量。说明一下：这些临时文件和合并的文件都是在本地文件系统上存储的。

每个Map输出这样一个文件，最后不同Map生成的文件按照不同的partition传给不同的reduce,然后reduce直接把结果输出到HDFS文件系统上了。

这个是官方的一个图：

02 上传

有人认为这个图有问题，但在我个人开来，这个图描述的没有问题，如果认为确实有问题的还请指教阿。

简单说一下combiner的一个很重要的作用：combiner会对相同key的值进行合并，比如<a,1><a,1><a,1>,combiner过后合并成<a,3>,即减少了数据量，那末传向reduce的数据量就减少了，进而提高了效率

本文合适和对mapreduce有一定了解，并且产生各种问题的同学，算是一个解惑篇。如果刚接触的话，这篇文章很有可能看不下去。建议先了解
Hadoop简介(1):什么是Map/Reduce

MapReduce 编程模型概述

mapreduce是hadoop核心，而shuffle是mapreduce的核心，shuffle个人认为它是一个动态的过程，包含了Combiner，merge等的过程，那么这里因为讲到shuffle，很多人都讲的全面，Combiner，merge，sort几乎全都讲了，这样讲是没有错误的，但是容易给初学者造成一个假象，那就是这些过程必须都是包含的，其实这些是根据个人的需求来确定的
1.Shuffle的定义是什么？
2.map task与reduce task的执行是否在不同的节点上？
3.Shuffle产生的意义是什么？
4.每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据该如何处理？
5.在map task执行时，它是如何读取HDFS的？
6.读取的Split与block的对应关系可能是什么？
7.MapReduce提供Partitioner接口，它的作用是什么？
8.溢写是在什么情况下发生？
9.溢写是为什么不影响往缓冲区写map结果的线程？
10.当溢写线程启动后，需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默认的行为，这里的排序也是对谁的排序？
11.哪些场景才能使用Combiner呢？
12.Merge的作用是什么？
13.reduce中Copy过程采用是什么协议？
14.reduce中merge过程有几种方式，与map有什么相似之处？
15.溢写过程中如果有很多个key/value对需要发送到某个reduce端去，那么如何处理这些key/value值
Shuffle产生的意义是什么？

Shuffle过程的期望可以有：
完整地从map task端拉取数据到reduce 端。
在跨节点拉取数据时，尽可能地减少对带宽的不必要消耗。
减少磁盘IO对task执行的影响。

每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据该如何处理？

每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据。

MapReduce提供Partitioner接口，它的作用是什么？

MapReduce提供Partitioner接口，它的作用就是根据key或value及reduce的数量来决定当前的这对输出数据最终应该交由哪个reduce task处理。默认对key hash后再以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力，如果用户自己对Partitioner有需求，可以订制并设置到job上。

什么是溢写？

在一定条件下将缓冲区中的数据临时写入磁盘，然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称为Spill，中文可译为溢写。

溢写是为什么不影响往缓冲区写map结果的线程？

溢写线程启动时不应该阻止map的结果输出，所以整个缓冲区有个溢写的比例spill.percent。这个比例默认是0.8，也就是当缓冲区的数据已经达到阈值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢写线程启动，锁定这80MB的内存，执行溢写过程。Map task的输出结果还可以往剩下的20MB内存中写，互不影响。

当溢写线程启动后，需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默认的行为，这里的排序也是对谁的排序？

当溢写线程启动后，需要对这80MB空间内的key做排序(Sort)。排序是MapReduce模型默认的行为，这里的排序也是对序列化的字节做的排序。

溢写过程中如果有很多个key/value对需要发送到某个reduce端去，那么如何处理这些key/value值？

如果有很多个key/value对需要发送到某个reduce端去，那么需要将这些key/value值拼接到一块，减少与partition相关的索引记录。

哪些场景才能使用Combiner呢？

Combiner的输出是Reducer的输入，Combiner绝不能改变最终的计算结果。所以从我的想法来看，Combiner只应该用于那种Reduce的输入key/value与输出key/value类型完全一致，且不影响最终结果的场景。比如累加，最大值等。Combiner的使用一定得慎重，如果用好，它对job执行效率有帮助，反之会影响reduce的最终结果。

Merge的作用是什么？

最终磁盘中会至少有一个这样的溢写文件存在(如果map的输出结果很少，当map执行完成时，只会产生一个溢写文件)，因为最终的文件只有一个，所以需要将这些溢写文件归并到一起，这个过程就叫做Merge

每个reduce task不断的通过什么协议从JobTracker那里获取map task是否完成的信息？

每个reduce task不断地通过RPC从JobTracker那里获取map task是否完成的信息

reduce中Copy过程采用是什么协议？

Copy过程，简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher)，通过HTTP方式请求map task所在的TaskTracker获取map task的输出文件。

reduce中merge过程有几种方式？
merge有三种形式：1)内存到内存 2)内存到磁盘 3)磁盘到磁盘。默认情况下第一种形式不启用，让人比较困惑，是吧。当内存中的数据量到达一定阈值，就启动内存到磁盘的merge。与map 端类似，这也是溢写的过程，这个过程中如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的那个文件。

初识hadoop