
[大数据实验手册 刘鹏]
Avalonist
这个作者很懒,什么都没留下…
展开
-
实验8 MapReduce-Join操作
8.3.1概述 对于RDBMS中的Join操作,写SQL的时候要十分注意细节,稍有差池就会耗时很长造成很大的性能瓶颈,而在Hadoop中使用MapReduce框架进行Join操作时同样耗时,但是由于Hadoop的分布式设计理念的特殊性,因此对于这种Join操作也具备了一定的特殊性。 8转载 2017-11-11 22:47:35 · 684 阅读 · 0 评论 -
实验6 MapReduce-二次排序
6.1实验原理 首先需要认识到一点就是MR默认会对键进行排序[https://www.cnblogs.com/acSzz/p/6383618.html] Spill过程 在collect阶段的执行过程中,当内存中的环形数据缓冲区中的数据达到一定发之后,便会触发一次Spill操作,将部分数据spill到本地磁盘上。SpillThread线程实际上是kvbuffer缓冲区转载 2017-11-12 14:05:42 · 802 阅读 · 0 评论 -
实验7 MapReduce-计数器
7.1概述转载 2017-11-12 14:46:30 · 600 阅读 · 0 评论 -
实验9 MapReduce-分布式缓存
9.1实验要求 假定现有一个100GB的大表big.txt和一个1MB的小表small.txt,请基于MapReduce思想编程实现判断小表中的单词在大表中出现次数。所谓的“扫描大表,加载小表“。由于实验中没有100GB这样的大表,甚至1MB的小表都没有,因为本实验采用模拟方式,所以用少量数据代表大文件big.txt,更少量数据代表small.txt. 9.2实验 BigAndSma转载 2017-11-12 20:23:00 · 563 阅读 · 1 评论