hadoop
烟酒和尚
为梦想选择了远方,便没有回头路可以走。所以,要么战死沙场,要么狼狈回乡。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
hadoop作业调优参数整理及原理(整个mapreduce运行流程都讲的清楚,一步一步优化)
1 Map side tuning参数1.1 MapTask运行内部原理当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。这中间的过程比较复杂,并且利用到了内存buffer来进行已经产生的部分结果的缓存,并在内存buffer中进行一些预排序来优化整个map的性能。如上图所示,每一个map都会对应存在一个内存buffer(MapOut转载 2016-10-06 15:35:25 · 586 阅读 · 0 评论 -
YARN ResourceManager调度器的分析
转自: http://tech.uc.cn/?p=1438 YARN是Hadoop新版中的资源控制框架。本文旨在深入剖析ResourceManager的调度器,探讨三种调度器的设计侧重,最后给出一些配置建议和参数解释。本文分析基于CDH4.2.1。调度器这个部分目前还在快速变化之中。例如,CPU资源分配等特性在不就的将来就会加入。为了方便查阅源代码,原代码位置使用[转载 2016-10-06 16:09:37 · 2815 阅读 · 0 评论 -
布隆过滤器(Bloom Filter)详解
布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它实际上是由一个很长的二进制向量和一系列随机映射函数组成,布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率(假正例False positives,即Bloom Filter报告某一元素存在于某集合中,但是实际上转载 2016-10-07 16:23:09 · 901 阅读 · 0 评论
分享