一、什么是hadoop
狭义上hadoop就是指一个框架:HDFS分布式文件系统(存储)、MapReduce分布式离线计算框架(计算)、YARN资源调度框架。
广义上的hadoop:除了包含hadoop框架之外,还有溢写辅助框架:Flume日志数据采集、Sqoop ELT关系型数据库数据采集、Hive深度依赖hadoop框架完成计算、Hbase大数据领域的数据库。
hadoop就是一个适合大数据的分布式存储和计算的平台。目前所讲述的就是狭义的hadoop框架。
二、hadoop的起源
著名的:
2003年和2004年谷歌的三篇论文(三驾马车):
GFS:Google的分布式文件系统(Google File System)
MapReduce:Google的分布式计算框架
BigTable:大型分布式数据库
发展演变关系:
GFS —> HDFS
Google MapReduce —> Hadoop MapReduce
BigTable —> HBase
三、hadoop的特点

四、hadoop的发行版本
Apache Hadoop版本(最原始版本)
优点:开源免费可以拥有全世界的开源贡献,代码更新代码比较快。
缺点:版本的升级和版本的维护以及版本之间的兼容性问题比较显著。
ClouderManager收费版本 CDH版本 ---生产环境使用(大部分生产环境使用该版本)
HortonWorks 免费开源版本 HDP版本 (已被Clodermanager收购)-- 生产版本使用生
五、hadoop版本更迭
略过...飞过...
六、hadoop优缺点
优点:(第三节图片上的四个优点)
a.具有存储和处理数据能力的高可靠性。
b.通过计算机集群分配数据,完成存储和计算任务,这些集群可以方便的扩展到数以千计的节点中,具有高扩展性。
c.能够在多个节点间进行动态的移动数据,保证各个节点的动态平衡,处理速度非常快,具有高效性。
d.能够自动保存数据多个副本,并且能够自动将失败的任务重新分配,具有高容错性。
缺点:
a.不适合低延迟的数据访问。
b.不能高效存储大量小文件。
c.不支持多用户写入并任意修改文件。
Hadoop是一个开源的分布式存储和计算框架,起源于谷歌的三篇开创性论文——GFS、MapReduce和BigTable。它包括HDFS、MapReduce和YARN等核心组件,以及Flume、Sqoop、Hive和Hbase等辅助框架。Hadoop适用于大数据处理,具有高可靠性、高扩展性和高容错性等优点,但也存在低延迟访问和小文件处理效率低等问题。常见的发行版本有Apache Hadoop、Cloudera的CDH和Hortonworks的HDP。
2578

被折叠的 条评论
为什么被折叠?



