Hadoop
第二部份 Hadoop3.x之HDFS
一、HDFS概述
1.1 概念
HDFS(Hadoop Distributed File System)是一个分布式的文件系统,通过目录树定位文件。
所谓目录树,就是类似Linux的文件结构,从根目录往下产生的分支结构。
所谓分布式,是指实际存放的位置可能分布在于多个服务器上。
HDFS的应用场景主要在于海量的数据存储,适于一次写入,多次读取(smr)。
1.2 优缺点
- 优点
- 高容错
- 适合大数据存储
- 可搭建廉价机集群
- 缺点
- 不适合低延时
- 不适合大量小文件存储
通过NameNode存储文件目录和块信息,NameNode大小128G,每条信息150字节,最大存储约9亿个。 - 不支持并发写入、文件随机修改。
1.3 HDFS的组成
1.4 HDFS的块
- HDFS中的文件在物理上分块存储,块大小可通过配置参数dfs.blocksize规定,默认为128M
- HDFS的块并不是只能存储一个文件,因此文件最小占用空间大小并不是块大小
- 寻址时间是找到目标块的时间,块过小会增加寻址时间
- 寻址时间为传输时间的1%比较合适
- 如寻址时间为10ms,则传输时间为1s,机械硬盘的传输速率约在近百M,因此块大小一般为128M,二三百M的传输速率如固态硬盘一般设256M

本文深入探讨了Hadoop3.x中的HDFS,涵盖了HDFS的概念、优缺点、块机制、Shell及API操作,以及NameNode、SecondNameNode和DataNode的工作原理。HDFS适用于大数据存储,具有高容错性和可扩展性,但不适合低延迟和大量小文件存储。
最低0.47元/天 解锁文章
957

被折叠的 条评论
为什么被折叠?



