3.4.1 大数据、Hadoop以及Hadoop生态的概念与区别

大数据是应对数据量爆炸性增长的存储与处理方式,提供大量数据的低成本存储和快速处理。Hadoop作为大数据的实现工具,最初包括HDFS和MapReduce,现已成为一个庞大的生态系统,涵盖如Spark、Kafka等组件。Hadoop核心与众多组件共同构成了处理大数据的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

大数据是现如今兴起的名词,提到大数据肯定少不了Hadoop、Spark、Kafka等等名词。那么Hadoop与大数据有什么关系。Hadoop又与HDFS、MapReduce、Spark有什么关系?

一句话解释版本:

大数据是与传统数据仓库相对应的概念,它是一种理念与方法。

Hadoop是与Oracle、Teradata相对应的概念,它是实现大数据理念的手段与工具。

Hadoop是一个内核与一大堆组件共同组合成的生态系统。
 

大数据的概念

与传统数据仓库一样,大数据也是数据存储与处理的一种方式。

近年来,数据量的爆炸性增长使得传统数据仓库无法满足海量数据的存储、处理、挖掘等需求。大数据从3个角度填补了传统数仓的缺陷。

  • 存储量

由于数据源的多样化,企业数据由之前的交易数据拓展现在的行为数据、竟对数据、CRM、 财务数据。很多企业也获得了大量的实时数据。

因此,数据量的增长使得大多数数据仓库很难存储PB,甚至EB级别数据。大数据则给这种存储提供了可能性。

  • 成本

海量数据带来的结果就是昂贵的存储成本。

在传统数据仓库中,加硬盘、扩容、加节点,都是极其费成本的措施。之前由于数据的增长幅度不明显,历史数据保存时间较短,因此不会出现频繁扩容的情况。但是由于数据源与数据量的暴涨,数仓扩容越来越频繁,维护成本越来越高昂。大数据则提供了廉价的数据存储方式,使得海量的数据能够用低成本维护。

  • 速度
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值