Apache Hadoop介绍

最新推荐文章于 2024-04-18 11:51:38 发布

原创最新推荐文章于 2024-04-18 11:51:38 发布 · 置顶 · 551 阅读

0 ·

CC 4.0 BY-SA版权

Hadoop学习专栏收录该内容

2 篇文章

订阅专栏

Apache Hadoop由Doug Cutting创建，起源于Nutch项目，解决大规模数据存储和索引问题。受到Google的GFS和MapReduce论文启发，发展出HDFS和MapReduce，成为Apache顶级项目。Hadoop引入YARN后支持更多计算框架，如Spark和Storm。其特点包括可扩展性、低成本、高效及可靠性。

Hadoop 是 Apache Lucene 创始人 Doug Cutting 创建的。最早起源于 Nutch，
它是 Lucene 的子项目。Nutch 的设计目标是构建一个大型的全网搜索引擎，包
括网页抓取、索引、查询等功能，但随着抓取网页数量的增加，遇到了严重的可
扩展性问题：如何解决数十亿网页的存储和索引问题。
2003 年 Google 发表了一篇论文为该问题提供了可行的解决方案。论文中描
述的是谷歌的产品架构，该架构称为：谷歌分布式文件系统（GFS）,可以解决他
们在网页爬取和索引过程中产生的超大文件的存储需求。
2004 年 Google 发表论文向全世界介绍了谷歌版的 MapReduce 系统。
同时期，Nutch 的开发人员完成了相应的开源实现 HDFS 和 MAPREDUCE，并从
Nutch 中剥离成为独立项目 HADOOP，到 2008 年 1 月，HADOOP 成为 Apache 顶级
项目，迎来了它的快速发展期。
2006 年 Google 发表了论文是关于 BigTable 的，这促使了后来的 Hbase 的发
展。
因此，Hadoop 及其生态圈的发展离不开 Google 的贡献。

从hadoop1.0到2.0最大的改变，也是hadoop火起来的原因就是，引入了yarn，yarn的引人让hadoop从mapreduce离线计算，有了更多的可能。yarn可以引人spark内存计算，strome流式技术

Hadoop 特性优点
扩容能力（Scalable）：Hadoop 是在可用的计算机集群间分配数据并完成计
算任务的，这些集群可用方便的扩展到数以千计的节点中。
成本低（Economical）：Hadoop 通过普通廉价的机器组成服务器集群来分发
以及处理数据，以至于成本很低。
高效率（Efficient）：通过并发数据，Hadoop 可以在节点之间动态并行的移
动数据，使得速度非常快。
可靠性（Rellable）：能自动维护数据的多份复制，并且在任务失败后能自
动地重新部署（redeploy）计算任务。所以 Hadoop 的按位存储和处理数据的能
力值得人们信赖。