Hadoop简介

简介

学习一种新的技术,在深入技术细节之前,首先需要了解这项技术的产生的背景,了解技术的总体框架。本文介绍了Hadoop基本概念、Hadoop重要模块、守护进程,以使读者能够对Hadoop有一个总体的认识。

Hadoop是什么

按照正式的定义,Hadoop是一个开源的框架,可编写和运行分布式应用,处理大规模数据。分布式计算是一个宽泛并且不断变化的领域,但Hadoop与众不同之处在于以下几点。
  1. 方便-Hadoop运行在由一般商用机器构成的大型集群上,或者如亚马逊弹性计算云(EC2)等云计算服务之上。
  2. 健壮-Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁地出现失效。它可以从容地处理大多数此类故障。
  3. 可扩展-Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。
  4. 简单-Hadoop允许用户快速编写出高效的并行代码。
Hadoop的方便和简单让其在编写和运行大型分布式程序方面占尽优势。即使是在校的大学生也可以快速、廉价地建立自己的Hadoop集群。另一方面,它的健壮性和可扩展性又使它胜任雅虎和Facebook最严苛的工作。这些特性使Hadoop在学术界和工业界都大受欢迎。

Hadoop构造模块

Hadoop作为大数据处理的框架,能够以并行和分布式的方式,存储和处理大数据集。它主要包括两部分:HDFS实现了在集群中数据的存储,MapReduce实现数据的并行处理存储在HDFS中的数据。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值