Hadoop:
Apache Hadoop项目为可靠、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的框架。它被设计成从单个服务器扩展到数千台机器,每个机器提供本地计算和存储。而不是依赖于硬件来提供高可用性,库本身被设计成检测和处理应用层的故障,因此在计算机群集的顶部提供高度可用的服务。
该项目包括以下模块:
Hadoop Common:支持其他Hadoop模块的通用工具。
Hadoop Distributed File System(HDFS):一种分布式文件系统,它提供对应用程序数据的高吞吐量访问(什么都能往这放)。
Hadoop Yarn:作业调度和集群资源管理的框架。
Hadoop MapReduce:一个用于大型数据集并行处理的系统。
HDFS:
1. HDFS特点:
HDFS专为解决大数据存储问题而产生的,其具备了以下特点:
1) HDFS文件系统可存储超大文件
每个磁盘都有默认的数据块大小,这是磁盘在对数据进行读和写时要求的最小单位,文件系统是要构建于磁盘上的,文件系统的也有块的逻辑概念,通常是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为512个字节。
HDFS是一种文件系统,自身也有块(block)的概念,其文件块要比普通单一磁盘上文件系统大的多,默认是64MB。
HDFS上的块之所以设计的如此之大,其目的是为了最小化寻址开销。
Hadoop生态详解

最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



