Python_机器学习_Hadoop海量数据实现原理

Hadoop海量数据实现原理

  1. 单点结构面临的问题
  2. 集群架构面临的问题
  3. Hadoop集群架构
  4. 冗余化数据存储
  5. 分布式文件系统

单点结构

在这里插入图片描述

海量数据例子

在这里插入图片描述

集群架构

在这里插入图片描述

2. 集群架构面临的问题

节点故障

在这里插入图片描述

网络带宽瓶颈

在这里插入图片描述

3. Hadoop 分布式集群

在这里插入图片描述

Map-Reduce集群运算问题的解决方案

  1. 在多节点上冗余地存储数据,以保证数据的持续性
  2. 将计算移向数据端,以最大程度减少数据移动
  3. 简单的程序模型,隐藏所有的复杂度

4.冗余化数据存储结构

分布式文件存储系统:

  1. 提供全局的文件命名空间,冗余度和可获取性
  2. 例如Google的GFS,hadoop的HDFS

典型的应用场景与模式:

  1. 超大级别的数据量(100GB到100TB级别)
  2. 数据很少被全部替换
  3. 最常见的操作为读取和追加数据

5. 分布式文件系统

  1. 数据以‘块状’形式在多台机器上存储
  2. 每个数据块都会重复地在多台机器上存储
  3. 保证数据的持续性和随时可取性
  4. 服务器块同时也用作计算服务器
  5. 把运算挪向数据处
服务器块:
  1. 文件被分作16-64MB大小的连续块
  2. 每个文件块会被重复的存储2到3次
  3. 尽量保证重复的数据块在不同的机架上
主节点:
  1. Hadoop的HDFS里叫做Name节点
  2. 存储元数据记录文件存储结构和地址
  3. 最常见的操作为读取和追加数据
文件访问的客户端库:
  1. 询问主节点以获取块服务器地址
  2. 直接连接相应服务器块获取数据

Map Reduce变换数据

Hadoop组成
  1. Hadoop Common
    工具包,为其它hadoop模块提供基础设施
  2. Hadoop HDFS
    分布式文件系统,对海量数据存储
  3. Map-Reduce
    分布式处理策略,计算模型,对海量数据处理
  4. Ya
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值