
Hadoop
buptdavid
程序员小小一枚!
展开
-
Hadoop 新 MapReduce 框架 Yarn 详解
原文出处: https://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-yarn/唐 清原, 咨询顾问简介: 本文介绍了 Hadoop 自 0.23.0 版本后新的 map-reduce 框架(Yarn) 原理,优势,运作机制和配置方法等;着重介绍新的 yarn 框架相对于原框架的差异及转载 2015-04-28 18:25:51 · 968 阅读 · 0 评论 -
Impala:新一代开源大数据分析引擎
原文出处: http://www.parallellabs.com/2013/08/25/impala-big-data-analytics/原文发表在《程序员》杂志2013年第8期,略有删改。文 / 耿益锋 陈冠诚 大数据处理是云计算中非常重要的问题,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重转载 2015-05-04 20:41:31 · 1404 阅读 · 0 评论 -
Hadoop Map Reduce 限制counter的默认数量120
最近用Hadoop统计将近一亿行的数据的统计,由于每一行的列再加上Overall的统计counter数量超过了120,故在Hadoop的运行过程中,抛出如下异常: org.apache.hadoop.mapreduce.counters.LimitExceededException: Too many counters: 121 max=120由于为了无法修改Hadoop的配置(因为很多人原创 2015-05-05 17:24:09 · 9198 阅读 · 1 评论 -
Hadoop Map Reduce的Counter数量超过默认值120的解决方案
前一篇Hadoop的文章《Hadoop Map Reduce 限制counter的默认数量120》提到的一个Reduce的Counter数量超过默认值120待解决方案,今天终于有空去实现了,实现方法如下: 使用类MultipleOutputs的对象write方法在reduce中进行统计计算,MultipleOutputs的使用可参考博文《hadoop文件输出控制,多路径输出到不同文件》. 直接上原创 2015-06-29 19:43:31 · 3818 阅读 · 0 评论 -
MapReduce Join操作
MapReduce 处理两个或多个数据源是经常的事,此时就要根据某个key将两个数据源进行Join操作,Join操作的原则是: 1) 如果两个数据源大小差不多,则直接使用DataJoin类进行Join操作 2) 如果两个数据源大小相差很大,则使用Distributed Cache机制将较小的数据源复制到所有节点并缓存起来,然后过滤大的数据源。如果缓存不小较小的数据源,可以先用Distribute原创 2015-07-24 20:25:33 · 1027 阅读 · 0 评论 -
MapReduce 中的两表 join 几种方案简介
概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce s转载 2015-07-16 17:32:36 · 5806 阅读 · 0 评论