知识结构梳理1(各软件简介,用途)

Hadoop生态详解

Hadoop:
Apache Hadoop项目为可靠、可扩展、分布式计算开发开源软件。Apache Hadoop软件库是一个允许使用简单编程模型跨计算机集群分布式处理大型数据集的框架。它被设计成从单个服务器扩展到数千台机器,每个机器提供本地计算和存储。而不是依赖于硬件来提供高可用性,库本身被设计成检测和处理应用层的故障,因此在计算机群集的顶部提供高度可用的服务。              
该项目包括以下模块:              
Hadoop Common:支持其他Hadoop模块的通用工具。              
Hadoop Distributed File System(HDFS):一种分布式文件系统,它提供对应用程序数据的高吞吐量访问(什么都能往这放)。       
Hadoop Yarn:作业调度和集群资源管理的框架。             
Hadoop MapReduce:一个用于大型数据集并行处理的系统。

HDFS:

1. HDFS特点:

HDFS专为解决大数据存储问题而产生的,其具备了以下特点:

1) HDFS文件系统可存储超大文件

每个磁盘都有默认的数据块大小,这是磁盘在对数据进行读和写时要求的最小单位,文件系统是要构建于磁盘上的,文件系统的也有块的逻辑概念,通常是磁盘块的整数倍,通常文件系统为几千个字节,而磁盘块一般为512个字节。

HDFS是一种文件系统,自身也有块(block)的概念,其文件块要比普通单一磁盘上文件系统大的多,默认是64MB。

HDFS上的块之所以设计的如此之大,其目的是为了最小化寻址开销。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值