
Hadoop 优化
文章平均质量分 81
Mike_H
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive优化_1. 数据文件优化篇
之前转载了一篇。博主总结的很不错。这里本人将自己平时积累的资料汇总了一下,来补充一下这篇文章:针对方法上篇的优化方法1,2,3 主要建立在 Hive 触发了一个 MapReduce Job。但是我们都知道,启用 MapReduce Job 会消耗系统开销的(从我这篇博文 Hive_4.DDL -- 数据库&内部表&外部表 可以发现当使用 Like 关键词的时候效率比 CTAS 要快很多倍)原创 2015-12-02 13:40:08 · 2224 阅读 · 0 评论 -
MapReduce性能优化_1. 性能测量
本文翻译于 《Hadoop in Practice》, 摘抄自:大牛翻译系列性能调优的基础主要依赖于系统的性能指标和实验数据。依据这些指标和数据,才能找到系统的性能瓶颈。性能指标和实验数据要通过一系列的工具和过程才能得到。这部分里,将介绍Hadoop自带的工具和性能指标。还将捎带介绍性能监控工具。 1 抽取作业统计数据[job statistics]的工具这翻译 2015-12-07 15:24:49 · 779 阅读 · 0 评论 -
MapReduce性能优化_6. 优化 Shuffle & Sort 阶段
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.3 优化洗牌(shuffle)和排序阶段技术46 规避使用reduce技术47 过滤和投影技术48 使用combine技术49 用Comparator进行超快排序洗牌和排序阶段都很耗费资源。洗牌需要在map和reduce任务之间传输数据翻译 2015-12-08 17:15:51 · 686 阅读 · 0 评论 -
MapReduce性能优化_4. 诊断一般性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.4 任务一般性能问题技术37 作业竞争和调度器限制技术38 使用堆转存(stack dump)来查找未优化的用户代码这部分将介绍那些对map和reduce任务都有影响的性能问题。技术37 作业竞争和调度器限制即便map任务和re翻译 2015-12-08 16:31:39 · 825 阅读 · 0 评论 -
MapReduce性能优化_8. 优化MapReduce的用户JAVA代码
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.5 优化MapReduce用户JAVA代码MapReduce执行代码的方式和普通JAVA应用不同。这是由于MapReduce框架为了能够高效地处理海量数据,需要成百万次调用map和reduce函数。每次调用仅用较少时间。那么就不能用普通的经验来预测常见库(含JDK)的性能表现。翻译 2015-12-08 17:38:12 · 660 阅读 · 0 评论 -
MapReduce性能优化_2. 诊断 Map 端性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2 诊断性能瓶颈技术28 调查输入数据中的特别大的部分技术29 诊断map端的数据倾斜(data skew)技术30 诊断map任务的低吞吐量问题技术31 小文件技术32 不可分块的文件有的时候作业的执行时间会长得惊人。想靠猜也是很难猜对问题在哪。这一章中将介绍如何界定问翻译 2015-12-07 16:04:31 · 911 阅读 · 0 评论 -
MapReduce性能优化_3. 诊断 Reduce 端性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.3 Reduce的性能问题技术33 Reduce实例不足或过多技术34 诊断reduce段的数据倾斜的问题技术35 确定reduce任务是否存在整体吞吐量过低技术36 缓慢的洗牌(shuffle)和排序Reduce的性能问题有和map类似的方面,也有和map不同的翻译 2015-12-08 16:24:40 · 1914 阅读 · 0 评论 -
MapReduce性能优化_7. 减小数据倾斜的性能损失
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.4 减小数据倾斜的性能损失数据倾斜是数据中的常见情况。数据中不可避免地会出现异常值(outlier),并导致数据倾斜。这些异常值会显著地拖慢MapReduce的执行。常见的数据倾斜有以下几类:数据频率倾斜 -- 某一个区域的数据量要远远大于其他区域。数据大小倾斜 -- 部分记翻译 2015-12-08 17:31:53 · 1179 阅读 · 0 评论 -
MapReduce性能优化_5. 诊断一般性能瓶颈
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.2.5 硬件性能问题技术39 查找硬件的失效技术40 CPU竞争技术41 内存交换技术42 磁盘健康技术43 网络尽管单独的硬件的MTTF(平均失效前时间)都数以年记,然而在集群中就完全不是这么一回事了。整个集群的MTTF就要小得多。这一节要介绍如何确定CPU,内存,翻译 2015-12-08 16:43:45 · 1039 阅读 · 0 评论 -
Hive 数据倾斜 (Data Skew) 总结
转载本篇文章主要是为了介绍接下来的 Hive Join 优化 和 Parquet 谓词下推功能。原文地址 : http://www.mamicode.com/info-detail-500353.html倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾转载 2015-12-02 14:57:07 · 6518 阅读 · 0 评论 -
Hive 参数介绍以及优化记录
本文参考:Hive 的参数说明:http://www.geedoo.info/hive-parameter-description.html Hive 工作中优化记录:http://www.geedoo.info/hive-optimization-notes.html Hive 配置参数详细介绍:http://www.a转载 2015-12-01 15:48:44 · 1376 阅读 · 0 评论 -
MapReduce性能优化_9. 数据序列化
本文翻译于 《Hadoop in Practice - 1》, 摘抄自:大牛翻译系列6.4.6 优化数据序列化如何存储和传输数据对性能有很大的影响。在这部分将介绍数据序列化的最佳实践,从Hadoop中榨出最大的性能。 压缩压缩是Hadoop优化的重要部分。通过压缩可以减少作业输出数据的储存足迹,加速MapReduce作业下游接收数据。另外,在map和翻译 2015-12-08 17:44:51 · 685 阅读 · 0 评论