Hadoop框架整体介绍

最新推荐文章于 2024-04-26 22:46:43 发布

原创最新推荐文章于 2024-04-26 22:46:43 发布 · 685 阅读

CC 4.0 BY-SA版权

文章标签：

6 篇文章

订阅专栏

03年Google将海量数据的存储和计算的解决方案以三篇论文的形式发表出来：GFS（google文件系统，解决海量数据存储）、MapReduce（解决海量数据的计算问题）、BigTable（解决海量数据查询问题）。
Hadoop之父Doug Cutting将这三篇论文用java实现并开源：
GFS------HDFS hadoop的分布式文件系统
MapReduce-------MapReduce
BigTable------Hbase
这个项目在他的Nutch项目中，之后进行分离出来，成为独立项目Hadoop，HDFS+MapReduce=Hadoop、Hbase
之后贡献给Apache基金会
yahoo挖走了doug cutting

Hadoop是Apache旗下的一套开源软件平台
Hadoop提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理。
Apache™Hadoop®项目提供了高可靠（不间断的提供服务），高可扩展（横向扩展能力）的分布式计算的开源软件。
Apache Hadoop软件库是一个框架，允许使用简单的编程模型（mapreduce）跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机，依赖每台计算机都提供本地计算和存储。本身不是依靠硬件来提供高可用性，而是设计用于检测和处理应用程序层的故障，从而在计算机集群之上提供高可用性服务，每个计算机都可能容易出现故障。
hadoop中将硬件错误看做一个常态