
hadoop系列
文章平均质量分 72
chlaws
希望身体健康
展开
-
hadoop secondary namenode 部署出错所产生的错误及解决方法
只叙述secondary namenode部署出错所产生的错误及解决方法环境:suse 10.1namenode 单独部署在cloud1secondary namenode 单独部署在 cloud3集群部署完成后使用Jps查看进程,发现该有的进程都有,hdfs也能上传下载文件 查看secondary name 上的log,发现在doCheckpoint都失败20原创 2011-11-17 14:38:39 · 13671 阅读 · 3 评论 -
MapReduce源码分析之MapTask分析(二)
MapReduce源码分析之MapTask详解的后半段文章。在分析过程中我们知道了MapTask是如何使用循环缓存区管理数据,知道了数据在缓存不下是如何做spill处理的,spill输出的数据格式,combiner如何处理,如何将多一个文件merge为一个等等。也希望通过阅读这部分源码能学习到部分设计思路,能在未来的设计中提供多一种思路。原创 2014-08-04 22:21:17 · 6471 阅读 · 3 评论 -
MapReduce源码分析之InputSplit分析
前言MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。什么是InputSplit InputSplit是指分片,在MapReduce当中作业中,作为map task最小输入单位。分片是基于文件基础上出来的而来的概念,通俗的理解一个文件可以切分为多少个片段,每个片段包括了等信息。在MapTask拿到这些分片后,会知道从哪开始读取数据。Job原创 2014-04-03 23:15:55 · 13781 阅读 · 2 评论 -
MapReduce源码分析之架构分析1
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 本篇,将不会涉及代码部分的分析,只是简单分析map的整体架构,并介绍map与reduce的运行过程,主要是为后续的分析做一个铺垫。至于MapTask/ReduceTask的原理分析,JobTracker部分,以及TaskTracker如何启动一个Task这些都将在后续章节给出。MR编程模型原创 2014-04-14 22:24:54 · 5234 阅读 · 2 评论 -
HBase -ROOT-和.META.表结构(region定位原理)
在HBase中,大部分的操作都是在RegionServer完成的,Client端想要插入,删除,查询数据都需要先找到相应的RegionServer。什么叫相应的RegionServer?就是管理你要操作的那个Region的RegionServer。Client本身并不知道哪个RegionServer管理哪个Region,那么它是如何找到相应的RegionServer的?本文就是在研究源码的基础上揭转载 2013-11-24 13:50:01 · 18930 阅读 · 3 评论 -
解决hadoop抛出的Task process exit with nonzero status of 134异常(转载)
首先,我说说碰到这个问题的原因造成在tasktracker的log中出现错误:2012-01-04 13:49:27,734 INFO org.apache.hadoop.mapred.TaskTracker: JVM with ID: jvm_201112211104_0002_m_1605380604 given task: attempt_201112211104_0002_m_00转载 2012-01-04 17:24:16 · 5788 阅读 · 3 评论 -
我的2011-分享我的四个项目经验
请勿抄袭,转载请注明出处 http://blog.youkuaiyun.com/chlaws前言2010-11-01入职到现在有一年多了,这一年来,也做了比较多的事。也学到很多东西,基本来说这期间一直在忙碌着,没有停过。有些时候也会挺有压力的。11月底的时候就开始计划准备写个总结,既能回顾下这一年自己在哪些地方成长了,也能加深下自己的所做过项目的印象。之后的内容会按所做的项目进行大致的描述,小项目之类原创 2012-01-01 00:36:37 · 13396 阅读 · 19 评论 -
简述thrift与应用分析
前言 本篇将以thrift-0.9.0为背景讲述thrift的基础,使用案例,启发。概述 thrift是一个软件框架,用来进行可扩展且跨语言的服务的开发。它结合了功能强大的软件堆栈和代码生成引擎,以构建在 C++, Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C#, Cocoa,JavaScript, Node.js, Sma原创 2013-07-14 21:06:40 · 10068 阅读 · 0 评论 -
hadoop几个版本区别
做个mark,以后有空再详细写写0.20.x是历史稳定版0.23.x是根据0.20.x的稳定版引入了federation和yarn,但缺少NN和HA1.0.x是当前稳定版,但和0.20.x系列差不多,只不过有些优化改进1.1.x是beta版2.0.x 现在是alpha版,有yarn和federation的引入这点是和0.23.x是一样,且有NN和HA,但是它是基于1.x的稳定版原创 2013-01-08 10:04:14 · 10515 阅读 · 5 评论 -
hive部署
前几天部署了个hive,感觉挺简单,稍微记录下。环境:hadoop,hbase都已经装过了,只需要装个mysql就可以装hive了mysql和hive不是必须要装到hadoop master或datanode节点的只要在你部署的那台机器上有hadoop并且这个hadoop的配置能够正确的指向hadoop的master的地址mysql:可以下载个rpm包装上去就可以了,然后可以通原创 2012-06-30 16:24:29 · 3166 阅读 · 2 评论 -
优化hbase的查询操作-大幅提升读写速率
环境:suse 8G内存,8核,12T磁盘 hbase master 占一台,其他7台作为hbase的region server注意:此处不讨论hadoop情景: 我们有7亿的数据,需要做查询操作,需要从1.7亿的表中查找一个字段,并写入到7亿数据的表中。 这里为了描述方便,将7亿数据的表称为:A表,1.7亿数据的原创 2011-12-30 17:30:07 · 13683 阅读 · 1 评论 -
使用hbase自带工具测试读写速率
性能测试结果 hbase/bin/hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1org.apache.hadoop.hbase.PerformanceEvaluation$SequentialWriteTest in 66382ms at offset 0 for 1048576 rows原创 2011-12-29 16:52:50 · 12285 阅读 · 4 评论 -
解决客户端通过zookeeper连接到hbase时连接过多的问题
原因:客户端程序通过zookeeper访问hbase的连接数超过设置的默认链接数(默认数是30),连接数不够用会导致后续的连接连接不上去。解决办法:设置hbase-site.xml配置文件,添加如下属性 hbase.zookeeper.property.maxClientCnxns 300 Property from ZooKeeper's confi原创 2011-12-25 13:55:32 · 16390 阅读 · 2 评论 -
MapReduce源码分析之MapTask分析
前言 MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。 该章节会分析在MapTask端的详细处理流程以及MapOutputCollector是如何处理map之后的collect输出的数据。 map端的主要处理流程图1 MapTask处理流程 图1所示为MapTask的主要代码执行流程,在MapTask启动后会进入入口run函数,根据是否使用原创 2014-07-13 20:55:13 · 6931 阅读 · 1 评论