HDFS是什么
HDFS设计特性和概念
HDFS,全称是Hadoop Distributed Filesystem,是一个分布式的文件系统,以流式数据访问模式来存储超大文件(一次写入、多次读取)。
HDFS具有如下设计特性:
(1)处理超大文件,指的是GB、TB、PB级别的文件。百度、淘宝都有PB级别的HDFS,百度应该有国内最大规模的HDFS,几十PB。
(2)流式数据访问,一次写入,多次读取,所处理的场景中,读取整个数据的延迟比读取第一条记录的时间延迟重要。
(3)运行在普通商用PC即可,比如3万级别的普通PC服务器(16-32G ECC内存,8-16核CPU)。
(4)是为高数据吞吐量优化的,以高时间延迟为代价。
(5)推荐处理大量小文件,由于na