Hadoop,最近几年新起的热门词汇。其实早在雅虎时期,Hadoop就被广泛用在搜索引擎上,那时为Nutch的一个子项目,而Nutch又是Apache Luccene的一个子项目。Nutch着重于索引数十亿的网页,为保证分布式处理、冗余、自动故障回鹘和负载均衡,Nutch用google的文件系统和MapReduce框架来扩展自己的搜索系统,被设计成了一个专门可以充实两种网络扩展所需的技术,这就是Hadoop。
Hadoop,是一个开源的框架,可编写和运行分布式应用处理大规模的数据,与其他分布式,hadoop有着不不同之处。集中表现在以下几点:
1、方便。Hadoop运行在由一般商用机器构成的大型集群上。如淘宝的hadoop,百度的hadoop。
2、健壮。Hadoop致力于在一般商用的硬件上运行。其架构假设硬件会频繁地失败。它可以从容地处理大多数此类故障。
3、可扩展。Hadoop通过增加集群节点。可以线性地扩展以处理更大的数据集。
4、简单。Hadoop允许用户快速编写出高效的并行代码。
Hadoop是一种开源框架,用于编写和运行分布式应用以处理大规模数据。它最初作为Nutch项目的组成部分出现,现已成为处理大规模数据集的重要工具。Hadoop能够在商用硬件上运行,具备良好的扩展性和容错性。
139

被折叠的 条评论
为什么被折叠?



