1.hadoop是什么
Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。
Hadoop框架透明地为应用提供可靠性和数据移动。它实现了名为MapReduce的编程范式:应用程序被分割成许多小部分,而每个部分都能在集群中的任意节点上执行或重新执行。此外,Hadoop还提供了分布式文件系统,用以存储所有计算节点的数据,这为整个集群带来了非常高的带宽。MapReduce和分布式文件系统的设计,使得整个框架能够自动处理节点故障。它使应用程序与成千上万的独立计算的电脑和PB级的数据。现在普遍认为整个Apache Hadoop“平台”包括Hadoop内核、MapReduce、Hadoop分布式文件系统(HDFS)以及一些相关项目,有Apache
Hive和Apache HBase等等。
2.hadoop的发展历史
2002年,nutch项目开始创建。
2003年,谷歌发表关于GFS的论文。
2004年,Google发表论文,向全世界介绍了MapReduce。
2005年初,为了支持Nutch搜索引擎项目,Nutch的开发者基于Google发布的MapReduce报告,在Nutch上开发了一个可工作 的MapReduce应用。
2005年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS(Nutch Distributed File System )来运行。
2006年1月,Doug Cutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。
2006年2月,Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。
2008年1月,Hadoop成为Apache顶级项目
2008年2月,Yahoo!宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。
2008年7月,Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序 ,比上一年的纪 录保持者保持的297秒快了将近90秒
3.hadoop的生态圈
hadoop生态系统主要包括以下内容
HDFS(类似google的GFS)和MapReduce分别是hadoop的文件存储系统和计算框架,还有Common组件也是hadoop的组成 部分之一,负责分布式文件IO,RPC通信,持久化和压缩等功能。
HBase(类似google的BigTable):一个分布式、按列存储数据库,使用HDFS作为底层存储,同时支持MapReduce的批量式计 算和点查询(随机读取)。
Pig:一种数据流语言和运行环境,用以检索非常大的数据集,运行在MapReduce和HDFS的集群上。
Hive:一个分布式、按列存储的数据仓库,管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引起翻译成 MapReduce作业)用以查询数据。
Zookeeper(类似google的chubby):一个分布式、可用性高的协调服务,提供分布式锁之类的基本服务用于构建分布式应 用。
Oozie:一个工作流引擎服务器,用于运行Hadoop Map/Reduce和Pig 任务工作流。
Ambari:一个hadoop的集群监控工具。
Hcatalog:基于Hadoop之上的数据表和存储管理服务。
4.hadoop的发行版
hadoop发行版是基于appace hadoop的厂商定制,类似各大linux厂商对linux kernel的定制。主要包括Cloundera CDH,Hortonworks的HDP, Intel Distribution,IBM BigInsight(大家都可以到对应的官网上去查看)。
关于hadoop的版本发展史,补丁等大家可以到官网查看( 不同版本的特性不同,使用时请注意)。
5.hadoop的应用
hadoop 主要应用在移动数据,在线旅游,视频网站等数据流量比较大的地方。
6.具体参考资料
A:hadoop 权威指南
B:10个hadoop的应用场景(http://www.open-open.com/bbs/view/1342075659562)
C:hadoop的发展历程(http://blog.sina.com.cn/s/blog_8eee7fb60101cxdv.html)
D:hadoop的wiki词条
E:hadoop初探之hadoop生态圈(http://cqwjfck.blog.chinaunix.net/uid-22312037-id-3969789.html)
F:工作流引擎服务器 Hadoop Oozie 介绍(http://www.open-open.com/lib/view/open1328413117624.html)
G:六点解读Hadoop版本和生态圈(http://storage.chinabyte.com/330/12901330.shtml)