Hadoop核心组件以及发行版

本文深入探讨了Hadoop的核心组件,包括分布式存储框架HDFS、分布式计算框架MapReduce和资源调度系统YARN的特点与优势。介绍了狭义与广义Hadoop的概念,并对比了几种Hadoop的常用发行版。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop核心组件之分布式存储框架HDFS

  • 源于Google的GFS论文,论文发表与2003年10月
  • HDFS时GFS的克隆版
  • HDFS特点:扩展性很好、容错性很好、能够存储海量数据
  • HDFS将文件切分成指定大小的数据块并以多副本的存储在多个机器上

Hadoop核心组件之分布式计算框架MapReduce

  • 源于Google的MapReduce论文,论文发表于2004年12月
  • Hadoop MapReduce就是Google MapReduce的克隆版
  • MapReduce特点:扩展性、容错性、海量数据离线处理

Hadoop核心组件之资源调度系统YARN

  • YARN:Yet Another Resource Negotiator
  • 负责整个集群资源的管理和调度
  • YARN特点:扩展性、容错性、多框架资源统一调度(Pig,Storm,Spark,Flink,Solr等框架都可以跑在YARN之上)

Hadoop优势

  • 高可靠性
    • 数据存储:数据块多副本
    • 数据计算:重新调度作业计算
  • 高扩展性
    • 存储/计算资源不够时,可以横向的线性扩展机器
    • 一个集群中可以包含数以千计的节点
  • 存储在廉价的机器中,降低成本
  • 成熟的生态圈

狭义Hadoop VS 广义Hadoop

  • 狭义的Hadoop:是一个适合大数据分布式存储(HDFS)、分布式计算(MapReduce)和资源调度(YARN)平台
  • 广义的Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每一个子系统只解决某一个特定的问题域(甚至可能更窄),不搞统一型的一个全能系统,而是小而精的多个小系统
    在这里插入图片描述

Hadoop生产环境下常用的发行版及选型

Hadoop常用的发行版

  • Apache:
    • 优点:纯开源
    • 缺点:不同版本/不同框架之间整合较麻烦;jar冲突比较多
  • CDH
    • 优点: cm(cloudera manager),通过页面一键安装各种框架、升级非常方便,支持impala
    • 缺点:cm不开源、与社区版本有些许出入
  • Hortonworks:HDP, 企业发布自己的数据平台可以直接基于页面框架进行改造
    • 优点:原装hadoop、纯开源、支持tez
    • 缺点:企业级安全框架不开源
  • MapR
    在生产环境中,优先选择CDH或者HDP发行版
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值