《Hadoop实战第2版》——1.8节本章小结

本文介绍了Hadoop分布式计算平台的基本概念、架构及其提供的多种服务。Hadoop由HDFS和MapReduce为核心,辅以一系列子项目如Hive、HBase等,共同构成了一个强大的数据处理平台。此外,文章还简述了Hadoop如何实现并行计算和数据管理,并提到了一些基本的安全策略。

1.8 本章小结
本章首先介绍了Hadoop分布式计算平台:它是由Apache软件基金会开发的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。由于Hadoop拥有可计量、成本低、高效、可信等突出特点,基于Hadoop的应用已经遍地开花,尤其是在互联网领域。
本章接下来介绍了Hadoop项目及其结构,现在Hadoop已经发展成为一个包含多个子项目的集合,被用于分布式计算,虽然Hadoop的核心是Hadoop分布式文件系统和MapReduce,但Hadoop下的Common、Avro、Chukwa、Hive、HBase等子项目提供了互补性服务或在核心层之上提供了更高层的服务。紧接着,简要介绍了以HDFS和MapReduce为核心的Hadoop体系结构。
本章之后又从分布式系统的角度介绍了Hadoop是如何做到并行计算和数据管理的。分布式计算平台Hadoop实现了分布式文件系统和分布式数据库。Hadoop中的分布式文件系统HDFS能够实现数据在电脑集群组成的云上高效的存储和管理功能,Hadoop中的并行编程框架MapReduce基于HDFS来保证用户可以编写应用于Hadoop的并行应用程序。本章又介绍了Hadoop的数据管理,主要包括Hadoop的分布式文件系统HDFS、分布式数据库HBase和数据仓库工具Hive。它们都有自己完整的数据定义和体系结构,以及实现数据从宏观到微观的立体管理数据办法,这都为Hadoop平台的数据存储和任务处理打下了基础。
本章最后还介绍了关于Hadoop的一些基本的安全策略,包括用户权限管理、HDFS安全策略和MapReduce安全策略,为用户的实际使用提供了参考。本章中的许多内容在本书后面的章节中会详细介绍。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值