
Hadoop
文章平均质量分 65
c77_cn
这个作者很懒,什么都没留下…
展开
-
HDFS2.2.0集群的HA高可靠配置
原文见:http://www.cnblogs.com/meiyuanbao/p/hadoop2.html转载 2014-05-28 14:41:21 · 727 阅读 · 0 评论 -
占据过多ZK连接的HiveServer2导致的奇葩问题
HiveServer2的0.13版本存在一个bug,会导致占据的ZK连接数超过定义上限,详细可见HIVE-8596(https://issues.apache.org/jira/browse/HIVE-8596)描述。在我们的线上集群中,因为这个bug导致了一个有意思的故障。线上YARN集群版本为Hadoop2.5.0-cdh5.2.0,包含7个NodeManger节点,假设为host1——h原创 2015-07-03 18:27:05 · 2815 阅读 · 0 评论 -
Hadoop2.6和2.7中几个重要的新特征
Hadoop2.71. YARN-1492 - Automatic shared, global caching of YARN localized resources (beta)Hadoop Distributed Cache大家应该比较熟悉。它的局限是只能在一个Job间共享file,该特性期望实现多个job间共享file。不过Hadoop2.7中,该特征为Beta版本,社区希望在Ha原创 2015-05-05 15:25:04 · 2754 阅读 · 0 评论 -
简单说说WebHDFS和HttpFS
如果你没有太多留意的话,可能会认为这两个是一个东西。虽然它们看起来很像,但是确实是两回事。WebHDFS是HortonWorks开发的,然后捐给了Apache,可见博客:WebHDFS – HTTP REST Access to HDFS。而HttpFS是Clouera开发的,也捐给了Apache,可见博客:HttpFS for CDH3 – The Apache Hadoop FileS原创 2015-05-25 11:43:40 · 12133 阅读 · 3 评论 -
如何检测HDFS的均衡状态?
HDFS执行Rebalancing时,会首先检查当前是否处于均衡状态,如果不均衡才会执行Rebalancing。检测时,首先计算整个集群的DFS Capacity Used比例(cluster_avg),以及每个节点的DFS Capacity Used比例(node_avg)。再比较每个节点的node_avg和cluster_avg,比较规则如下图:图中的Rebalancing T原创 2015-05-22 18:14:28 · 1071 阅读 · 0 评论 -
clouera-scm-agent进程内存高涨的一个案例
偶然发现集群中两台机器内存占用存在异常,仔细排查之后,发现是clouera-scm-agent进程作怪。正常的机器里,该进程虚拟内存和物理内存占用,分别是2G和50M左右,而它们两个则分别达到了7G和5G左右。查看问题机器的该进程日志(默认路径/var/log/cloudera-scm-agent/cloudera-scm-agent.log),看到频繁的出现下列提示:[20/May/2015原创 2015-05-20 16:01:25 · 1471 阅读 · 0 评论 -
基于YARN的MapReduce日志几个注意事项
说明:本文提及的所有配置参数,都是基于Hadoop 2.5.0-cdh5.2.0环境。MapReduce(MR)的调试是一个比较麻烦的问题,除了一些辅助调试工具(如mrunit)外,相信通过日志定位问题仍然是一个比较常见的方法。虽然这种方法比较原始,但是很多时候也能解决大问题......下面将描述使用MR的日志时,需要注意的一些问题。1. MR运行过程中,日志将暂存于yarn.node原创 2015-04-22 14:28:48 · 2473 阅读 · 0 评论 -
MapReduce中如何访问外部jar包和数据文件
说明:本文提及的所有代码和配置参数,都是基于Hadoop 2.5.0-cdh5.2.0环境。MapReduce(MR)程序中经常需要访问外部的文件,例如:外部的jar包或数据文件。对于前者,可以拷贝到hadoop的lib路径下(本文的CDH环境中,真实路径为/opt/cloudera/parcels/CDH-5.2.0-1.cdh5.2.0.p0.36/lib/hadoop/lib/)。很明显原创 2015-04-21 17:46:25 · 1276 阅读 · 0 评论 -
自定义WritableComparable遭遇空指针异常的一个场景
自定义的WritableComparable中,如下代码一切ok:......private String cookieID;......public MyWritable(){}public MyWritable(final String cookieID){ set(cookieID);}public void set(final String cookieID)原创 2015-04-20 18:03:32 · 1227 阅读 · 0 评论 -
MapReduce开发中需要注意的几个问题
说明:本文提及的所有观点和代码,均基于Hadoop 2.5.0-cdh5.2.0环境。1. WritableComparable和WritableComparator的区别WritableComparable和WritableComparator都提供了比较的功能。先看看其相关定义:public interface WritableComparable extends Writab原创 2015-04-22 17:13:01 · 1338 阅读 · 0 评论 -
简单理解MapReudce的分区和分组
分区简单的说,一组KV交给一组Reduce进行处理,分区就是制订其交付的对应规则。如下代码:public class DoPartitioner extends HashPartitioner{ @Override public int getPartition(final MyKeyWritable key, final MyValueWritable value, f原创 2015-04-22 15:25:19 · 791 阅读 · 0 评论 -
Hadoop新一代MapReduce框架Yarn,理解时需要注意的几点问题
原文请见:http://blog.sina.com.cn/s/blog_829a682d0101lc9d.html或http://www.youkuaiyun.com/article/2014-02-10/2818355对于初学者,我觉得应该搞清楚以下几点:1. YARN和MR2不是一回事。YARN只是一个资源管理的框架,并不是一个计算框架,MR2只是一个计算框架,并不是一个资源管理框架。计算框架可以原创 2015-02-13 20:00:32 · 655 阅读 · 0 评论 -
有关大数据,看这一篇就够了!
转自:http://database.ctocio.com.cn/47/13205547.shtml 似乎一夜之间,大数据(BigData)变成一个IT行业中最时髦的词汇。 首先,大数据不是什么完完全全的新生事物,Google的搜索服务就是一个典型的大数据运用,根据客户的需求,Google实时从全球海量的数字资产(或数字垃圾)中快速找出最可能的答案,呈现给你,就是一个最典型转载 2015-02-11 10:24:12 · 2487 阅读 · 1 评论 -
如何修改Hadoop客户端的堆大小
在集群中一台机器上执行hadoop jar my_jar时,出现t原创 2014-07-14 14:39:16 · 1830 阅读 · 0 评论 -
hadoop HDFS SecondNamenode详解
转载自:http://blog.chinaunix.net/uid-20577907-id-3524135.htmlSecondNamenode名字看起来很象是对第二个Namenode,要么与Namenode一样同时对外提供服务,要么相当于Namenode的HA。真正的了解了SecondNamenode以后,才发现事实并不是这样的。下面这段是Hadoop对SecondNamenod转载 2014-05-28 14:35:56 · 2437 阅读 · 0 评论 -
Hadoop运维中遇到的问题(持续更新中......)
1. NodeManager不能启动症状:org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Failed to initialize LocalizationService at org.apache.hadoop.yarn.server.nodemanager.containermanager.localiz原创 2015-02-05 14:44:50 · 5942 阅读 · 0 评论