(自学大数据系列)第一章:初识Hadoop

本文介绍了全球数据总量的增长情况,并探讨了Hadoop如何通过并行读取数据来提高读取速度,解决硬盘读取速度瓶颈的问题。此外还讨论了Hadoop如何通过MapReduce编程模式进行数据处理,并详细阐述了Hadoop的两大核心功能——HDFS和MapReduce。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、数据现状

2006年数字世界(digital universe)项目统计得出全球数据总量为0.18ZB,2011年将达到1.8ZB

(1ZB = 1 000EB = 1 000 000PB = 1 000 000 000TB)数据增长速度也在加快。

2、数据的存储

数据读取速度慢:在硬盘容量不断提升的同时,数据的读取速度却没有与时俱进,目前数据的读取速度也仅为100MB/S。

解决办法:可以把数据存放在多个硬盘中,每个硬盘存储1% 的数据,读取数据时,100个job同时运行,时间消耗就大大的缩短。

Hadoop采取了并行读取数据的方法来减少时间,单同时也要解决并行读写产生的问题:

1)、硬件故障,HDFS(Hadoop Distributed File System)要求文件存储时一式三份,分别存储在不同的硬件设备,当其中一个硬件发生故障时,会从其他副本中获取数据。

2)、做数据分析时,很多数据都是相互依赖使用的。Hadoop开发出了MapReduce编程模式,该模型抽象出这些硬盘上读取文件的内容并将其转化为一个数据集(由键值对组成)的计算。

Hadoop提供了可靠的共享存储和分析系统,HDFS实现数据存储,MapReduce实现数据的分析和处理。这两个是Hadoop的核心功能。

产生MapReduce的原因是因为硬盘发展的一个趋势造成:

1)、传输效率的提升效果远大于减少寻址时间产生的效果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值