第二部分:hadoop简介

Hadoop是一个开源的分布式存储和计算框架,起源于谷歌的三篇开创性论文——GFS、MapReduce和BigTable。它包括HDFS、MapReduce和YARN等核心组件,以及Flume、Sqoop、Hive和Hbase等辅助框架。Hadoop适用于大数据处理,具有高可靠性、高扩展性和高容错性等优点,但也存在低延迟访问和小文件处理效率低等问题。常见的发行版本有Apache Hadoop、Cloudera的CDH和Hortonworks的HDP。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、什么是hadoop

        狭义上hadoop就是指一个框架:HDFS分布式文件系统(存储)、MapReduce分布式离线计算框架(计算)、YARN资源调度框架。
        广义上的hadoop:除了包含hadoop框架之外,还有溢写辅助框架:Flume日志数据采集、Sqoop ELT关系型数据库数据采集、Hive深度依赖hadoop框架完成计算、Hbase大数据领域的数据库。

        hadoop就是一个适合大数据的分布式存储和计算的平台。目前所讲述的就是狭义的hadoop框架。

二、hadoop的起源

        著名的:       
         2003年和2004年谷歌的三篇论文(三驾马车):
                GFS:Google的分布式文件系统(Google File System)
                MapReduce:Google的分布式计算框架
                BigTable:大型分布式数据库
        发展演变关系:
                GFS —> HDFS
                Google MapReduce —> Hadoop MapReduce
                BigTable —> HBase

三、hadoop的特点

        

四、hadoop的发行版本

          Apache Hadoop版本(最原始版本)
                 优点:开源免费可以拥有全世界的开源贡献,代码更新代码比较快。
                 缺点:版本的升级和版本的维护以及版本之间的兼容性问题比较显著。
         ClouderManager收费版本 CDH版本 ---生产环境使用(大部分生产环境使用该版本)
         HortonWorks 免费开源版本  HDP版本 (已被Clodermanager收购)-- 生产版本使用生

五、hadoop版本更迭

        略过...飞过...

六、hadoop优缺点

        优点:(第三节图片上的四个优点)
                a.具有存储和处理数据能力的高可靠性。
                b.通过计算机集群分配数据,完成存储和计算任务,这些集群可以方便的扩展到数以千计的节点中,具有高扩展性。
                c.能够在多个节点间进行动态的移动数据,保证各个节点的动态平衡,处理速度非常快,具有高效性。
                d.能够自动保存数据多个副本,并且能够自动将失败的任务重新分配,具有高容错性。

        缺点:
                a.不适合低延迟的数据访问。
                b.不能高效存储大量小文件。
                c.不支持多用户写入并任意修改文件。

        

        

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值