HDFS
文章平均质量分 65
HDFS笔记
airyv
一名兴趣使然学习编程的学生。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce1和MapReduce2(YARN)工作机制
算法流程:初始化: 伪头节点 dumdum ,节点 curcur 指向 dumdum 。循环合并: 当 l_1l1或 l_2l2为空时跳出;当 l_1.val < l_2.vall1.val<l2.val 时: curcur 的后继节点指定为 l_1l1,并 l_1l1向前走一步;当 l_1.val \geq l_2.vall1.val≥l2.val 时: curcur 的后继节点指定为 l_2l2,并 l_2l2原创 2021-07-14 16:56:19 · 412 阅读 · 0 评论 -
在HDFS写入数据,写某一副本出错时HDFS的处理流程
首先会关闭管线pipeline。将已经发送到管道中但是没有收到确认的数据包重新写回数据队列,这样无论哪个节点发生故障,都不会发生数据丢失。这个过程是在确认队列中将未收到确认的数据包删除,写回到数据队列。然后当前正常工作的数据节点将会被赋予一个新的版本号(利用namenode中租约的信息可以获得最新的时间戳版本),这样故障节点恢复后由于版本信息不对,故障DataNode恢复后会被删除。在当前正常的datanode中根据租约信息选择一个主DataNode,并与其他正常DataNode通信,获取每个Da..原创 2021-07-10 22:20:34 · 734 阅读 · 0 评论 -
NameNode中的高可用(HA)的实现
Namenode的HA主要包括:主备切换、共享日志储存。(可以拓展Zookeeper的选举算法,比如利用了强一致性)1、在集群中,存在多个 namenode,,这些 namenode处于 active或者 standby状态。2、共享日志存储: active向共享文件系统写入日志文件, standby从共享文件系统读取日志与 active保持同步。共享文件系统一般采用的是 Quorum Journal(群体日志)设计方案。这个方案中主要涉及 JournalNode(JN)和 Quorum Journal原创 2021-07-10 21:40:44 · 2385 阅读 · 2 评论 -
联邦HDFS的概念及原理,HDFS的1.x和2.x架构的区别
hadoop1.x的hdfs架构主要由namespace(命名空间)和Block Storage(块的存储)两层组成单个namenode限制了性能。hadoop HDFS联邦架构联邦HDFS是namenode水平扩展方案。该方案允许HDFS创建多个namespace以提高集群的扩展性和隔离性。联邦HDFS允许每个namenode管理文件系统命名空间的一部分。每个namenode维护一个命名空间,不同namenode之间的命名空间相互独立。数据块池不再切分,所以每个DataNode需要注册到每个n原创 2021-07-10 16:32:11 · 461 阅读 · 0 评论 -
检查点机制,Fsimage与Editlog的合并过程理解
fsimage文件:即命名空间映像文件,是内存中的元数据在硬盘上的checkpoint,包含文件系统中的所有目录和文件inode的序列化信息。editlog:文件系统的写操作首先把它记录在editlog中。检查点机制:定时将fsimage和editlog合并并产生新的fsimage的过程,这一过程非常耗费cpu和IO,一般放在Secondary Namenode(非HA)和Standby Namenode(HA)中完成。(一)secondary namenode执行检查点操作(非HA):sec原创 2021-07-10 16:04:52 · 895 阅读 · 2 评论 -
HDFS客户端进行文件的读取与写入操作过程
HDFS客户端读流程:1.初始化FileSystem,然后客户端用DistributedFileSystem的open方法打开文件。2.FileSystem用RPC调用元数据节点,采用getBlockLocations()得到文件的数据块信息,对于每一个数据块,元数据节点返回保存数据块的数据节点的地址。3.FileSystem返回HdfsDataInputStream给客户端,用来读取数据,HdfsDataInputStream是DFSInputStream的装饰类,真正进行数据块读取的是DFSIn原创 2021-07-10 14:57:02 · 1788 阅读 · 0 评论
分享