1.定义
HDFS是Hadoop Distribute File System的缩写,它是Google公司的GFS分布式文件系统的开源实现,是Apache Hadoop项目的一个子项目。支持海量数据的存储,成百上千的计算机组成存储集群,HDFS可以运行在低成本的硬件之上,具有的高容错、高可靠性、高可扩展性、高吞吐率等特征,非常适合大规模数据集上的应用。
1.1优点
- 数据冗余 ,高容错性 数据自动保存多个副本 副本丢失后,自动恢复 可构建在廉价机器上
- 流式文件访问 一次性写入,多次读取 保证数据一致性
- 适合大数据处理 GB、TB、甚至PB级数据
- 适合批处理 吞吐量高
1.2缺点
- 不适合低延迟数据访问 比如毫秒级 低延迟与高吞吐率
- 不适合小文件存取 占用NameNode大量内存 寻道时间超过读取时间
- 不适合并发写入、文件随机修改 一个文件只能有一个写入者 仅支持append
2.HDFS组成与架构
1.NameNode的职责(Master)
管理维护HDFS
接收客户端的请求:上传、下载、创建目录等
维护了两个非常重要的文件:edits日志文件和fsimage镜像文件
HDFS的元信息