hadoop学习一-hadoop简介

Hadoop是一个由Apache基金会开发的分布式系统,源于Lucene项目,受Google的GFS和MapReduce启发。其核心包括HDFS和MapReduce,提供高可靠性、扩展性和高效容错的数据存储和分析。Hadoop经历了从1.x、2.x到3.x的版本演进,增加了如多NameNode等特性。Hadoop的优势在于处理海量数据时的高可靠、可扩展、高效和容错能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 hadoop是什么

hadoop是一个由apache基金会开发的分布式系统基础架构,主要解决海量数据存储和分析计算。广义地说hadoop通常代表hadoop生态圈。
在这里插入图片描述

2 hadoop发展历程

  • Lucene–DougCutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
  • 2001年年底成为apache基金会的一个子项目
  • 对于大数量的场景,Lucene面对与Google同样的困难
  • 学习和模仿Google解决这些问题的办法:微型版Nutch
  • 可以说Google是hadoop的思想之源(Google在大数据方面的三篇论文)

GFS—>HDFS
Map-Reduce—>MR
BigTable—>Hbase

  • 2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础DougCutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升
  • 2005年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分别被纳入称为Hadoop的项目中
  • 名字来源于DougCutting儿子的玩具大象
  • Hadoop就此诞生并迅速发展,标志这云计算时代来临

3 hadoop优势

  • 高可靠性—因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理
  • 高扩展性—在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高效性—在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度
  • 高容错性—自动保存多份副本数据,并且能够自动将失败的任务重新分配

4 1x,2.x,3.x的区别

在这里插入图片描述
3.x在组成上和2.x没有变化,在细节上比如可以配置多个namenode有些区别

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值