
Hadoop私房菜
该专栏主要总结Hadoop生态系统相关技术,以及在实际工作中遇到的Hadoop相关的问题总结
yangfeiblog
Full Stack Developer
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
yarn内存配置指南
yarn中需要配置很多内存,比如原创 2014-07-14 19:24:03 · 5145 阅读 · 1 评论 -
Hive创建TABLE_PARAMS表失败
今天,通过HiveMetaStoreClient查询Hive的表信息,原创 2014-05-20 15:30:18 · 2886 阅读 · 0 评论 -
Hadoop 开源调度系统zeus(二)
紧跟之前Hadoop 开源调度系统zeus(一)本节主要介绍一下原创 2014-06-22 18:41:42 · 3128 阅读 · 4 评论 -
Hadoop 开源调度系统zeus(一)
大数据分析中,经常使用Hadoop来做离线原创 2014-05-23 20:44:50 · 9264 阅读 · 4 评论 -
Hadoop源码导入Eclipse
需要进一步学习hadoop、需要看看内部源码实现,因此需要将hadoop源码导入都eclipse中,简单总结一下,具体步骤如下:首先确保已经安装了git、maven3、protobuf2.5、如果没有安装需要提前安装一下1、下载hadoop源码git clone git://git.apache.org/hadoop-common.git2、进入hadoop-common目录,原创 2014-07-04 17:03:22 · 2944 阅读 · 1 评论 -
MapReduce编程实例(二)-MR2操作MySQL
MR2中如果需要从数据库中读取或者写入数据,需要自己实现Writable和DBWritable两个接口,同时还需在DBConfiguration对数据库的元信息做相应配置。下面这个例子是Hadoop自带的,只是将数据库改为MySQL,在执行之前需要将Java连接MySQL的驱动上传到每台机器的${HADOOP_HOME}/share/hadoop/common路径下这里需要说明两点:1原创 2014-03-18 17:29:00 · 1307 阅读 · 0 评论 -
图文详解Apache Ambari 1.4.4安装
Apache Ambari 1.4.4安装指南操作系统:CentOS6集群机器列表:hadoop.master.com(192.168.1.204)hadoop.slave1.com(192.168.1.205)hadoop. slave2.com(192.168.1.206)ambari server安装节点及用户hadoop.master.com/root前原创 2014-03-14 17:00:10 · 2800 阅读 · 0 评论 -
Hadoop2中的日志
日志是定位问题最重要的手段,hadoop2中的日志主要有三类:系统日志;应用日志(Job);标准输出系统日志系统日志指各个组件打印的日志,如resourcemanager、namenode等,系统日志默认在${HADOOP_HOME}/logs目录下,格式为hadoop-username-service.log或者yarn-username-service.log,这个比较简单,很容易在找原创 2014-03-11 20:32:43 · 2366 阅读 · 0 评论 -
MapReduce编程实例(一)-求平均数
开始学习写一些MR编程实例,工作中即将使用(刚刚开始,如果有错误和建议,欢迎指出)现在有一个文件,里面记录了全校所有学生各科成绩,求每个学生的平均成绩,格式如下小明 语文 92小明 数学 88小明 英语 90小强 语文 76小强 数学 66小强 英语 80小木 语文 60小木 数学 65小木 英语 61解决思路Map阶段先将数据拆成k原创 2014-03-10 12:00:08 · 2780 阅读 · 4 评论 -
研磨Hadoop源码(六)ResourceManager启动分析2
紧接上一篇http://blog.youkuaiyun.com/yangfei001/article/details/18674357这里主要从源码分析一下ResourceManager的main方法主要做了哪些事情:main方法中,主要就是下面这段代码//获取配置信息Configuration conf = new YarnConfiguration();//实例化一个资源管理器Res原创 2014-02-26 18:53:08 · 1381 阅读 · 0 评论 -
研磨Hadoop源码(五)ResourceManager启动分析1
之前分析的估计过于细了,从这篇开始,分析一下ResourceManager的起点过程,这是第一篇,先分析一下shell部分1、起点hadoop最简单的方式是执行$HADOOP_HOME/sbin/start-all.sh,在hadoop2中,该脚本实际已经被start-dfs.sh和start-yarn.sh所代替,所以执行之后会打印"This script is Deprecated.原创 2014-01-22 21:22:06 · 2076 阅读 · 1 评论 -
研磨Hadoop源码(四)Hadoop Rack Awareness(机架感知)
今天跟小伙伴讨论一下hadoop的机架感知机会,又去刨了一下hadoop源码,初略的知道了hadoop机架感知实现 首先我们都知道hadoop默认会将数据存储三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架原创 2013-12-27 17:26:00 · 1880 阅读 · 0 评论 -
研磨Hadoop源码(三)-yarn-RMContainerTokenSecretManager
ResourceManager的另一个重要成员:该类主要定时生成ResourceManager容器的密匙,NodeManager定期上来更新,以保证每个NodeManager都是活的并且都是系统安全识别的NodeManager,其主要逻辑public void start() { rollMasterKey(); this.timer.scheduleAtFixedRate(n原创 2013-12-23 21:13:57 · 1054 阅读 · 0 评论 -
研磨Hadoop源码(二)-yarn-ClientToAMTokenSecretManagerInRM
由于hadoop2中最大,也炒的比较火的就是yarn,所以先看看yarn,关于yarn是什么东西或者架构,这里就不做详细说明,网上随便一搜就有了,给一个yarn的整体架构图从上图可知,yarn里面最主要的Resource Manager(很不幸,又一个单点),所以我们从ResourceManager开始,今天先分析ResourceManager的第一个成员ClientToAMToken原创 2013-12-23 20:33:51 · 3083 阅读 · 0 评论 -
研磨Hadoop源码(一)
hadoop源码分析系列说明一直想看看Hadoop的源码,之前虽然看了一点点,但是也没有在大脑(内存)中的信息保存到笔记(硬盘)中,所以在近期开始认真研读Hadoop源码,并将自己的理解记录下来。选择的hadoop版本为apache hadoop2.2,所有的文章都是自己的理解,如果有错误或者讲解不清楚的地方,或许逐步修改。当然如果有大拿能够指出不足之处,衷心感谢原创 2013-12-23 20:07:25 · 1091 阅读 · 0 评论