学习Hadoop

本文详细介绍了Hadoop的分布式文件系统(DFS),包括其思想、文件存储、Block概念、NameNode的工作原理及问题、DataNode的角色以及心跳机制。此外,还探讨了Hadoop2.0的改进和脑裂问题的解决方案,对于理解Hadoop生态系统具有重要作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

是什么

        狭义上来说,hadoop单独指代hadoop这个软件

        广义上来说,hadoop指代大数据的一个生态圈,包括很多其他软件

分布式文件系统(DFS Distributed File System)

        理解思想(切分)

                文件在计算机上存储都是以二进制方式存储

                数组可以拆分为多个小数据,所以文件也可以进行拆分,使用的时候再将他们合并起来

                可以根据文件的偏移量将他们合并

        文件存储 

                Block

                   数据块 H1默认大小为64M,H2及其后默认大小为128M

                    同一个文件中,每个数据块大小要一致除了最后一个节点

                    数据块的个数=Ceil(文件大小/每个块的大小)(向上取整)

        组件   

               NameNode

                        存放元数据信息,文件与块的映射,块与DataNode的映射   

                   问题

                        当集群关机的时候,元数据,文件与块的映射会被实例化到硬盘上,但是块与DataNode的映射关系不会被存储,每次重启不能保证所有的DataNode节点保证正常启动。当重新启动集群的时候,原先的DataNode节点还未完全启动,客户端发来请求,就会出现数据错误。

                       问题1:集群还未完全启动,禁止访问

                        进入安全模式,不允许客户端对服务器进行查询操作

                       问题2:启动后有的DataNode节点不能正常使用

                        为了保证每个Block对应的DataNode都是有效的,所以每次集群关闭的时候不会对Block与DataNode的映射实例化到硬盘

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值