
Hadoop
文章平均质量分 74
kangpeng1107
面对生活始终笑着,面对朋友也要坚持
展开
-
hadoop随手笔记
(1)hadoop的信息的传递主要依靠心跳机制:依靠传递packet来想Datanode写入数据,一个packet由多个数据chunk组成,每个chunk对应这一个校验和,当chunk的数目足够多的时候,packet会被写入Dataqueue。其中packet包含两种:心跳packet(里面不含有任何chunk,4个字节存储packet的长度,8个字节存储呢packet在block中的偏移量,8个原创 2017-04-10 11:24:25 · 1037 阅读 · 0 评论 -
MR程序编写
做了一个有关于读取三张hbase表处理进行统一处理的项目:(1)MR中读取多张表:TableMapReduceUtil.initTableMapperJob()支持对多张scan组成的list,每个scan是对每张表的浏览,其中scan又可以对表进行过滤类似于hbase。List scans = new ArrayList<>(); Scan scan1 = new Scan();原创 2017-04-10 11:27:24 · 4500 阅读 · 0 评论 -
hadoop随手笔记(3)
(1)FairScheduler调度器当只有一个job在集群中运行时,这个job可以使用整个集群的资源,但是当有其他的jobs提交到集群上的时候,那么在有其他的jobs提交到集群上的时候,那么在那个时刻空闲的内存slot就可以被分配给心提交上来的jobs,所以在一定时间内,每个job都得到了比较平均的cpu使用时间。(2)TaskTracker的数量和DataNode的数量相同,TaskT原创 2017-04-10 11:27:56 · 360 阅读 · 0 评论 -
hadoop随手笔记(2)--mapreduce的运行机理
(1)InputFormat输入格式:里面定义了getSplits方法,主要将输入的文件分割成逻辑上的多个分片InputSplit,这里面的分片不是真正意义上的分片,只是逻辑上的分片,每个分片同伙输入文件的路径、开始时为止和偏移量三个信息来唯一标识。使用createRecordReader方法去创建一个RecorReader记录读取器,分别读取输入分片中的键值对,交给Map处理:在MapR原创 2017-04-10 11:28:09 · 551 阅读 · 0 评论