Hadoop
kocdaniel
分享,交友,进步
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hadoop之完全分布式运行模式
集群环境:centOs6.8:hadoop102,hadoop103,hadoop104jdk版本:jdk1.8.0_144hadoop版本:Hadoop 2.7.2首先准备三台客户机(hadoop102,hadoop103,hadoop104),关闭防火墙,修改为静态ip和ip地址映射配置集群编写集群分发脚本创建一个远程同步的脚本xsync,并放到当前用户下新建的b...原创 2019-09-24 20:46:26 · 218 阅读 · 0 评论 -
浅谈HDFS(一)
产生背景及定义HDFS:分布式文件系统,用于存储文件,主要特点在于其分布式,即有很多服务器联合起来实现其功能,集群中的服务器各有各的角色随着数据量越来越大,一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是管理和维护极不方便,于是迫切需要一种系统来管理多台机器上的文件,这就是分布式管理系统,HDFS是其中一种。HDFS的使用适合一次写入,多次读出的场景,且不...原创 2019-09-26 10:38:49 · 741 阅读 · 0 评论 -
浅谈HDFS(二)之NameNode与SecondaryNameNode
NN与2NN工作机制思考:NameNode中的元数据是存储在哪里的?假设存储在NameNode节点的硬盘中,因为经常需要随机访问和响应客户请求,必然效率太低,所以是存储在内存中的但是,如果存储在内存中,一旦断电,元数据丢失,整个集群便无法工作,因此会在硬盘中产生备份元数据的Fsimage但是这样又会有新的问题出现,当内存中的元数据更新时,需要同时更新Fsimage,否则会发生一致...原创 2019-09-27 20:56:00 · 433 阅读 · 0 评论 -
浅谈HDFS(三)之DataNote
DataNode工作机制一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。DataNode与NameNode之间有一个心跳事件,心跳是每3秒一次,心跳返回结果带有NameNode给该Data...原创 2019-09-28 21:09:11 · 1317 阅读 · 0 评论 -
MapReduce之Job提交流程源码和切片源码分析
hadoop2.7.2 MapReduce Job提交源码及切片源码分析1. 首先从waitForCompletion函数进入boolean result = job.waitForCompletion(true);/** * Submit the job to the cluster and wait for it to finish. * @param verbo...原创 2019-09-29 18:37:31 · 999 阅读 · 0 评论 -
MapReduce与Yarn 的详细工作流程分析
MapReduce详细工作流程之Map阶段如上图所示首先有一个200M的待处理文件切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要提交jar包;本地环境一般只作为测试用提交时会将每个任务封装为一个job交给Yarn来处理(详细见后边的Y...原创 2019-10-08 20:58:24 · 1335 阅读 · 0 评论
分享