HDFS简介
一、HDFS:Hadoop Distributed File System
1. 一个分布式文件系统
2. 基于流数据模式访问和处理超大文件的需求而开发的
3. 适合应用在大规模数据集上
优点:
1.处理超大文件
能用来存储管理PB级的数据 1PB = 1024TB
2.处理非结构化数据、半结构化数据、结构化数据
流式的访问数据
一次写入、多次读取
3.运行于廉价的商用机器集群上
可运行在低廉的商用硬件集群上
故障时能继续运行且不让用户察觉到明显的中断
1.处理超大文件
能用来存储管理PB级的数据 1PB = 1024TB
2.处理非结构化数据、半结构化数据、结构化数据
流式的访问数据
一次写入、多次读取
3.运行于廉价的商用机器集群上
可运行在低廉的商用硬件集群上
故障时能继续运行且不让用户察觉到明显的中断
局限性/缺点:
1. 不适合处理低延迟数据访问
HDFS是为了处理大型数据集分析任务的,主要是为了达到高的数据吞吐量而设计的
对于低延时的访问需求,HBase是更好的选择
对于低延时的访问需求,HBase是更好的选择