认识Hadoop
记得我初中时期,电脑刚刚进入到我们的视野。那会儿说谁家孩子就知道玩电脑,往往会和不知道学习挂钩。
现在好了,小孩子再也不玩电脑了,或者说再也没有任何理由需要使用电脑了。现如今,一个初中生几乎不会使用电脑,这还正常吗?
言归正传,首先问几个问题:
-
你会使用Windows系统操作文件吗?比如创建文件夹、移动文件夹、删除文件夹等
-
你需要知道还有另外一种操作系统——Linux,那么你会使用Linux命令操作文件吗?
-
如果把Hadoop想象成一个操作系统,那么HDFS就是Hadoop的文件系统,那么你会使用命令操作HDFS文件系统中的文件吗?
本文将带大家认识Hadoop和它的文件系统HDFS。
什么是Hadoop
Hadoop 是一个分布式系统基础架构,由 Apache 基金会开发。通俗来讲,Hadoop用来解决海量数据的存储和大规模数据的计算问题。
现在我们说到Hadoop也指Hadoop整个生态圈,包括HDFS、MapReduce、Hbase、Hive、ZooKeeper等成员。在这些成员中有两个核心:
- MapReduce
用于大规模数据集的并行计算
- HDFS
分布式文件系统,用于海量数据的存储
什么是HDFS
HDFS又称Hadoop分布式文件系统,是适合运行在通用硬件上的分布式文件系统。HDFS是一个高度容错性的系统,可以部署在廉价的机器上。
Hadoop奠定了现代分布式大数据技术的基础,说到大数