简析大数据的平台架构

本文深入探讨了Google分布式计算的三大核心技术:GoogleFileSystem、Map-Reduce及BigTable,并详细介绍了Hadoop体系架构及其核心组件HDFS、MapReduce和HBase的工作原理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

参考文档来源:http://www.36dsj.com/archives/10223

大数据的4V特征


大数据的4V特征

Google分布式计算的三驾马车


  • Google File System用来解决数据存储的问题,采用N多台廉价的电脑,使用冗余(也就是一份文件保存多份在不同的电脑之上)的方式,来取得读写速度与数据安全并存的结果。

  • Map-Reduce说穿了就是函数式编程,把所有的操作都分成两类,map与reduce,map用来将数据分成多份,分开处理,reduce将处理后的结果进行归并,得到最终的结果。

  • BigTable是在分布式系统上存储结构化数据的一个解决方案,解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构


Hadoop

Hadoop核心设计


Hadoop核心设计

HDFS介绍-文件读流程


文件读流程

  • Client向NameNode发起文件读取的请求。

  • NameNode返回文件存储的DataNode的信息。

  • Client读取文件信息。

HDFS介绍-文件写流程


文件写流程

  • Client向NameNode发起文件写入的请求。

  • NameNode根据文件大小和文件块配置情况,返回给Client它所管理部分DataNode的信息。

  • Client将文件划分为多个Block,根据DataNode的地址信息,按顺序写入到每一个DataNode块中

MapReduce——映射、化简编程模型


输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果
mapreduce模型

Hbase——分布式数据存储系统


分布式数据存储系统

  • Client:使用HBase RPC机制与HMaster和HRegionServer进行通信

  • Zookeeper:协同服务管理,HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

  • HMaster: 管理用户对表的增删改查操作

  • HRegionServer:HBase中最核心的模块,主要负责响应用户I/O请求,向HDFS文件系统中读写数据

  • HRegion: Hbase中分布式存储的最小单元,可以理解成一个Table

  • HStore:HBase存储的核心。由MemStore和StoreFile组成。

  • HLog:每次用户操作写入Memstore的同时,也会写一份数据到HLog文件

一个高并发网站的DB史


高并发网站的DB史

关系模型>聚合数据模型的转换-基本变换


基本变换

关系模型>聚合数据模型的转换-内嵌变换


内嵌变换

关系模型>聚合数据模型的转换-分割变换


分割变换

关系模型>聚合数据模型的转换-内联变换


内联变换

Hadoop2.0


  • MapReduce:
  • JobTracker:协调作业的运行。
  • TaskTracker:运行作业划分后的任务。
    hadoop2.0

大数据技术领域


大数据技术领域

平台架构图


基础架构
架构图

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值