hadoop学习笔记之一

本文介绍Hadoop如何通过HDFS、MapReduce及HBase等组件应对海量数据存储与处理的问题,探讨了其针对磁盘I/O瓶颈、网络带宽限制及硬件故障等问题的解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1、   Hadoop能解决哪些问题:

       海量数据需要及时分析和处理,

       海量数据需要深入分析和挖掘,

       数据需要长期保存。

       问题:

       磁盘IO成为一种瓶颈,而非CPU资源,

       网络宽带是一种稀缺资源,

       硬件故障成为影响稳定的一大因素。

2、Hadoop生态系统

    实现Hbase(NoSql数据库,key-value存储),可以最大化利用内存
    实现HDFS,可以最大化利用磁盘
    实现MapReduce,可以最大化利用CPU

    

3、HDFS

        基本概念:HDFS(Hadoop Distributed File System)是一个很好的分布式文件系统,默认的最基本的存储单位是64M的数据块(block),和普通文件系统相同的是,HDFS中的文件是被分成64M一块的的数据块存储的;不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。可通过副本机制提高可靠度和读取吞吐量,每个区块默认分到三台DataNode(启动DataNode的时候会向NameNode汇报block信息--三秒一次,如果NameNode10分钟没有收到DataNode的发送响应,则会认为DataNode已经lost,并copy自身的block到其它DataNode)上,单一的master(NameNode--提供名称查询服务,是一个jetty服务器)来协调存储元数据(metadata--会在启动后加载到内存);客户端对文件没有缓存机制。block的副本放置策略:第一个副本,放置在上传文件的DataNode,如果是集群外提交则随机挑选一台磁盘不太慢CPU不太忙的节点;第二个副本,放置在与第一个副本不同的机架节点上;第三个副本,与第二个副本相同集群的节点;其他副本,随机节点。具体HDFS详解可参考http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html

        

        

     



转载于:https://my.oschina.net/u/817908/blog/118969

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值