是什么
狭义上来说,hadoop单独指代hadoop这个软件
广义上来说,hadoop指代大数据的一个生态圈,包括很多其他软件
分布式文件系统(DFS Distributed File System)
理解思想(切分)
文件在计算机上存储都是以二进制方式存储
数组可以拆分为多个小数据,所以文件也可以进行拆分,使用的时候再将他们合并起来
可以根据文件的偏移量将他们合并
文件存储
Block
数据块 H1默认大小为64M,H2及其后默认大小为128M
同一个文件中,每个数据块大小要一致除了最后一个节点
数据块的个数=Ceil(文件大小/每个块的大小)(向上取整)
组件
NameNode
存放元数据信息,文件与块的映射,块与DataNode的映射
问题
当集群关机的时候,元数据,文件与块的映射会被实例化到硬盘上,但是块与DataNode的映射关系不会被存储,每次重启不能保证所有的DataNode节点保证正常启动。当重新启动集群的时候,原先的DataNode节点还未完全启动,客户端发来请求,就会出现数据错误。
问题1:集群还未完全启动,禁止访问
进入安全模式,不允许客户端对服务器进行查询操作
问题2:启动后有的DataNode节点不能正常使用
为了保证每个Block对应的DataNode都是有效的,所以每次集群关闭的时候不会对Block与DataNode的映射实例化到硬盘