
Hadoop
唔佲
这个作者很懒,什么都没留下…
展开
-
Hadoop学习笔记一
1、HDFS的常用操作 hadoop dfs -ls 列出HDFS下的文件 hadoop dfs -ls in 列出HDFS下某个文档中的文件 hadoop dfs -put test1.txt test 上传文件到指定目录并且重新命名,只有所有的DataNode都接收完数据才算成功 hadoop dfs -get in getin 从HDFS获取文转载 2014-07-01 09:30:50 · 738 阅读 · 0 评论 -
研磨Hadoop源码(五)ResourceManager启动分析1
之前分析的估计过于细了,从这篇开始,分析一下ResourceManager的起点过程,这是第一篇,先分析一下shell部分 1、启动hadoop最简单的方式是执行$HADOOP_HOME/sbin/start-all.sh,在hadoop2中,该脚本实际已经被start-dfs.sh和start-yarn.sh所代替,所以执行之后会打印 "This script is Deprecat转载 2014-07-01 10:03:49 · 843 阅读 · 0 评论 -
研磨Hadoop源码(三)-yarn-RMContainerTokenSecretManager
ResourceManager的另一个重要成员:该类主要定时生成ResourceManager容器的密匙,NodeManager定期上来更新,以保证每个NodeManager都是活的并且都是系统安全识别的NodeManager,其主要逻辑 [java] view plaincopyprint? public void start() {转载 2014-07-01 09:55:02 · 676 阅读 · 0 评论 -
Hadoop 开源调度系统zeus(一)
对海量数据进行处理时,目前大部分公司都采用Hadoop来对数据进行离线处理,但是由于业务场景,经常一个MR或者Hive或者其他形式的任务无法直接完成业务需要,需要任务之间按照特定关系来执行(任务流),例如任务1执行完成之后,才能执行任务2、任务2执行完成之后才能执行任务3和4,在这种情况下需要一套调度系统把各个任务之间的依赖关系串联起来, 目前来说,有很多开源的系统,最著名的应该算是Apac转载 2014-07-01 10:55:54 · 1373 阅读 · 0 评论 -
Hive创建TABLE_PARAMS表失败
今天,通过HiveMetaStoreClient查询Hive的表信息,结果在查询的时候,出现主键超长错误,错误日志如下: [plain] view plaincopyprint? 2014-05-19 20:34:20,039 INFO DataNucleus.Datastore:The class "org.apache.hadoop.hiv转载 2014-07-01 10:45:37 · 2036 阅读 · 0 评论 -
Hadoop笔试/面试题
该试题来自董成西汇总 1、MapReduce中排序发生在哪几个阶段??这些排序是否可以避免,为什么?? 答:一个MapReduce作业由Map阶段和Reduce阶段两部分组成,这两阶段会对数据排序,从这个意义上说,MapReduce框架本质就是一个Distributed Sort。在Map阶段,在Map阶段,Map Task会在本地磁盘输出一个按照key排序(采用的是快速排序)的文件(转载 2014-07-01 09:48:21 · 1284 阅读 · 0 评论 -
hadoop问题汇总
仅总结一下在使用hadoop中遇到的问题已经解决方法 问题1:java.io.IOException: Incompatible namespaceIDs in /home/hadoop/data/hdfs/data1: namenode namespaceID = 635210663; da tanode namespaceID = 1225500221 解决方法: 先停掉集转载 2014-07-01 09:45:27 · 744 阅读 · 0 评论 -
Hadoop2中的日志
日志是定位问题最重要的手段,hadoop2中的日志主要有三类:系统日志;应用日志(Job);标准输出 系统日志 系统日志指各个组件打印的日志,如resourcemanager、namenode等,系统日志默认在${HADOOP_HOME}/logs目录下,格式为hadoop-username-service.log或者yarn-username-service.log,这个比较简单,很转载 2014-07-01 10:29:55 · 532 阅读 · 0 评论 -
Hadoop学习笔记二
1、Job的状态及状态转换: job总共有5种状态(PREP、RUNNING、SUCCEEDED、FAILED、KILLED),其转换及其对应的事件 PREP -> RUNNING:作业的Setup Task(job-setup Task)成功执行完成 PREP -> FAILED/KILLED:人为使用Shell命令杀死作业,即bin/hadoop job [-kill|-转载 2014-07-01 09:50:26 · 684 阅读 · 0 评论 -
研磨Hadoop源码(六)ResourceManager启动分析2
这里主要从源码分析一下ResourceManager的main方法主要做了哪些事情: main方法中,主要就是下面这段代码 [java] view plaincopyprint? //获取配置信息 Configuration conf = new YarnConfiguration(); //实例化一个资源管理器 Reso转载 2014-07-01 10:16:31 · 729 阅读 · 0 评论 -
研磨Hadoop源码(四)Hadoop Rack Awareness(机架感知)
今天跟小伙伴讨论一下hadoop的机架感知机会,又去刨了一下hadoop源码,初略的知道了hadoop机架感知实现 首先我们都知道hadoop默认会将数据存储三份,存储策略为本地一份,同机架内其它某一节点上一份,不同机架的某一节点上一份。这样如果本地数据损坏,节点可以从同一机架内的相邻节点拿到数据,速度肯定比从跨机架节点上拿数据要快;同时,如果整个机架的网络出现异常,也能保证在其它机架转载 2014-07-01 09:58:09 · 871 阅读 · 0 评论 -
图文详解Apache Ambari 1.4.4安装
Apache Ambari 1.4.4安装指南 (注,由于图片在word中,比较麻烦,可以在附件中下载) 操作系统: CentOS6 集群机器列表: hadoop.master.com(192.168.1.204) hadoop.slave1.com(192.168.1.205) hadoop. slave2.com(192.168.1.206) a转载 2014-07-01 10:32:23 · 720 阅读 · 0 评论 -
MapReduce编程实例(一)-求平均数
开始学习写一些MR编程实例,工作中即将使用(刚刚开始,如果有错误和建议,欢迎指出) 现在有一个文件,里面记录了全校所有学生各科成绩,求每个学生的平均成绩,格式如下 小明 语文 92 小明 数学 88 小明 英语 90 小强 语文 76 小强 数学 66 小强 英语 80 小木 语文 60 小木 数学 65 小木 英语 61 解决思路 Map转载 2014-07-01 10:26:40 · 1247 阅读 · 0 评论 -
研磨Hadoop源码(二)-yarn-ClientToAMTokenSecretManagerInRM
由于hadoop2中最大,也炒的比较火的就是yarn,所以先看看yarn,关于yarn是什么东西或者架构,这里就不做详细说明,网上随便一搜就有了,给一个yarn的整体架构图 从上图可知,yarn里面最主要的Resource Manager(很不幸,又一个单点),所以我们从ResourceManager开始,今天先分析ResourceManager的第一个成员ClientToAMT转载 2014-07-01 09:53:11 · 620 阅读 · 0 评论 -
MapReduce编程实例(二)-MR2操作MySQL
MR2中如果需要从数据库中读取或者写入数据,需要自己实现Writable和DBWritable两个接口,同时还需在DBConfiguration对数据库的元信息做相应配置。 下面这个例子是Hadoop自带的,只是将数据库改为MySQL,在执行之前需要将Java连接MySQL的驱动上传到每台机器的${HADOOP_HOME}/share/hadoop/common路径下 这里需要说明两点转载 2014-07-01 10:40:38 · 741 阅读 · 0 评论