
Hadoop
文章平均质量分 81
PunWinger
这个作者很懒,什么都没留下…
展开
-
Hadoop的mapreduce.framework.name属性原理
配置Tez引擎时,只要我们把Tez的jars和配置文件路径添加进HADOOP_CLASSPATH里,然后通过设置mapred-site.xml文件的mapreduce.framework.name属性为yarn-tez,就可以替换默认的MR框架为tez引擎。 其中的奥妙在于使用了JDK6+的一个特性ServiceLoader类。其为JDK实现了一个依赖注入的机制。 Servic原创 2015-01-21 13:10:15 · 4740 阅读 · 0 评论 -
Zookeeper介绍
Zookeeper是一个分布式的开源系统,目的是为分布式应用提供协调一致性服务。分布式应用能够在Zookeeper提供的简单原语集之上构造更高层次的服务,例如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。Zookeeper使用了类似文件系统的目录树结构的数据模型,帮助简化程序编写。 目前,一些知名的大数据开源框架就是利用了Zookeeper来完善分布式的协调一致原创 2015-03-15 21:57:05 · 1095 阅读 · 0 评论 -
Hadoop集群中JobTracker和TaskTracker启动耗时过多的原因分析
在正式环境中,我们遇到一个这样的问题:配置更改后,需要重启JobTracker和TaskTracker节点的进程。在重启过程中,JobTracker和TaskTracker进程都很快启动完成,但是查看JobTracker的50030端口的Web管理页面时,发现JobTracker一直无法探知任何一个TaskTracker节点,大概经过10分钟后,才陆陆续续地探知完所有的TaskTracker节点。原创 2015-03-07 17:35:05 · 1760 阅读 · 0 评论 -
Hadoop2.0新特性
一、大数据处理系统 大量节点服务器组成集群,用户根据需要输入不同处理请求,经过复杂计算过程,输出对应结果,整个计算过程对用户来说透明。 对于这个大量节点组成的数据处理系统,需要考虑的问题有很多,比如数据存储、数据处理、资源管理、容错性、扩展性、较好的吞吐量......等问题。在目前来说,Hadoop框架可以有效解决以上大部分问题,而且由于Hadoop对于集群上的节点硬件要求不原创 2015-03-07 17:07:57 · 2190 阅读 · 0 评论 -
Hadoop 1.2.1升级2.6.0的一次崎岖之旅(包括Hive、HBase对应的升级)
为了更好地紧跟大数据发展先进性的技术趋势,追赶业界最顶尖的发展技术,我们把线上环境的Hadoop 1.2.1升级到2.6.0版本。这次的升级其实早有预谋,但鉴于升级过程较为繁琐,并且不但涉及HDFS的底层存储的升级,还涉及Hive、Hbase等上层系统的使用,有一定的风险,因此一直都在等待一个合适的时机。直到最近,我们的利用了Hadoop2.6.0和HBase的0.98.8的API的ETL系统正式原创 2015-03-07 17:44:11 · 2090 阅读 · 0 评论 -
Hadoop的默认调度器JobQueueTaskScheduler的一个Map Task Pending问题
在正式环境的Hadoop任务调度里,集群整体资源还有大量slot的情况下,出现了某些MapReduce任务无法被调度,一直处于pending状态,无法获得集群slot资源进行计算的诡异情况。更改几个指定类的loglevel后,查看其Debug的log发现了问题原因:这是由于Hadoop 1.x默认的FIFO调度器JobQueueTaskScheduler在进行集群均衡计算时,忽略Speculati原创 2015-03-07 17:29:57 · 2209 阅读 · 0 评论 -
HDFS新特性Centralized Cache Management介绍
概述 HDFS作为Hadoop底层存储架构实现,提供了高可容错性,以及较高的吞吐量等特性。在Hadoop 2.3版本里,HDFS提供了一个新特性——Centralized Cache Management。该特性能够让用户显式地把某些HDFS文件强制映射到内存中,防止被操作系统换出内存页,提高内存利用效率,有效加快文件访问速度。对于Hive来说,如果对某些SQL查询里需要经常读取原创 2015-03-07 17:39:29 · 1860 阅读 · 1 评论 -
Hadoop的一个变长long编码剖析
Hadoop对于long、int (化成long进行编码)的编码设计了自己的一套编码方式,这是一个zero-compressed encoded的变长编码方式,有利于大大压缩冗余数据。具体算法其实很简单,具体来说有如下几点:1、对于-112 2、如果i大于0,则编码的第一个字节 b 范围在-113和-120之间,则 i 会有 (-112 - b)个字节,所以可以表示有1-8个字节;3、原创 2015-06-14 23:38:11 · 1104 阅读 · 0 评论 -
Hadoop高可用特性解析
HDFS采用的是fsimage + edits的存储方式,fsimage是某个时间的内存文件系统镜像,edits是修改操作,每个修改操作称为一个事务,有一个整形的事务id指定。checkpoint的时候就存储一次fsimage,同时可以删除之前的edits。另外edits切割为很多segement,不同的segment都包含一段修改操作记录,正在写入的segment的文件名有inprogress和原创 2016-11-20 21:12:57 · 1341 阅读 · 0 评论