hadoop介绍

Hadoop是一个开源的分布式存储和计算平台,源于作者孩子的小象名字。它提供大型数据仓库的PB级数据存储、处理和分析能力,适用于搜索引擎、日志分析、商业智能和数据挖掘等场景。Hadoop包括分布式文件系统HDFS,其特点是扩展性和容错性,以及资源调度系统Yarn,负责集群资源管理。Hadoop的优势在于高可靠性、可扩展性和成熟生态圈。Hadoop生态系统是一个庞大的开源社区,包含了大数据处理的多个子系统。常见发行版有Apache Hadoop、CDH和HDP,它们各自有不同的特性和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hadoop名字由来

  作者孩子的棕黄色小象的名称

Hadoop简介

  开源的,分布式存储+分布式计算平台

作用

  搭建大型数据仓库,PB级数据的存储,处理,分析,统计等业务

  搜索引擎,日志分析,商业智能,数据挖掘


分布式文件系统HDFS

HDFS是GFS的克隆版

特点:扩展性,容错性(多副本),海量数据存储

将文件切分为指定大小的数据块并以多副本的存储在多个机器上

数据切分,多副本,容错等操作对用户是透明的


资源调度系统Yarn

  负责整个集群资源的管理和调度

  特点:扩展性,容错性,多框架资源统一调度

  


分布式计算框架MapReduce

特点:扩展性,容错性,海量数据离线处理

Hadoop优势

  高可靠性:数据块对副本

                  重新调度作业计算

  扩展性:存储/计算资源不够时,可以横线的线性扩展机器

              一个集群中可以包含数以千计的节点

               存储在廉价的机器上

               成熟生态圈

狭义Hadoop:是一个适合大数据分布式存储(HDFS),分布式计算(MapReduce)

                      和调度资源(YARN)的平台;

广义Hadoop:指的是Hadoop生态系统,Hadoop生态系统是一个很庞大的概念,hadoop是其中最重要最基础的一个部分,

                       生态系统中每一个子系统只能解决某一个特定的问题域(甚至可能很窄),不搞统一型的一个全能系统,

                       而是小而精的多个小系统

hadoop生态系统:


特点:1.开源,社区活跃。

          2.囊括了大数据处理的方方面面

          3.成熟生态圈

hadoop1.0和hadoop2.0架构


Hadoop常用发行版及选型

         Apache Hadoop(Jar包冲突)

         CDH:Cloudera Distributed Hadoop 和Spark结合很好(下载网址:archive.cloudera.com)

         HDP:Hortonworks Data Platform(添加,删除节点麻烦)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值