《Hadoop权威指南》随笔

对于Hadoop的学习,最权威的书就应该就是这本书了吧,作为一个初学者,希望在看书的过程中,记录自己感觉有用的东西,方便以后的学习使用。

第一章、初识Hadoop

    在面试的过程中,面试官可能会问,你是怎么看Hadoop的?在这里写下我的理解

    我们生活在一个数据的时代,每时每刻都会产生大量的数据,数据量可达到TP或PB。并且数据的格式各种各样,这就产生了两个问题,数据的存储和分析。Hadoop为我们提供了可靠的文件存储系统HDFS和分析系统MapReduce,并且Hadoop解决了读取数据的效率问题,并且通过副本策略解决了单机故障问题。

    比如说如果我们把数据只放在一块1T硬盘上,读取速率100M/s,那么我们需要花费2.5个小时才能读完。减少读取时间的方法就是并行读取,将数据存放在好几块硬盘上,每块硬盘存放一部分数据,那么这样我们读取数据的时间就可以大大缩减了。还有一个问题,就是如果我们存放数据的硬盘挂掉了,那对于我们来说是,损失是不可预计的。Hadoop就提供了副本策略,将数据进行备份,这样我们若遇到服务器挂掉,我们就可以从其他服务器上读取复制的数据。

并且Hadoop提供了可以结合不同来源的数据进行分析,这就是MapReduce。由map和reduce两部分组成,并且只能由这两个接口对外提供服务。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值