简析大数据的平台架构

呀呀培培

于 2016-02-18 17:20:41 发布

阅读量709

点赞数

分类专栏：大数据文章标签：大数据 google file system

大数据专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨了Google分布式计算的三大核心技术：GoogleFileSystem、Map-Reduce及BigTable，并详细介绍了Hadoop体系架构及其核心组件HDFS、MapReduce和HBase的工作原理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文档来源：http://www.36dsj.com/archives/10223

大数据的4V特征

大数据的4V特征

Google分布式计算的三驾马车

Google File System用来解决数据存储的问题，采用N多台廉价的电脑，使用冗余（也就是一份文件保存多份在不同的电脑之上）的方式，来取得读写速度与数据安全并存的结果。
Map-Reduce说穿了就是函数式编程，把所有的操作都分成两类，map与reduce，map用来将数据分成多份，分开处理，reduce将处理后的结果进行归并，得到最终的结果。
BigTable是在分布式系统上存储结构化数据的一个解决方案，解决了巨大的Table的管理、负载均衡的问题。

Hadoop体系架构

Hadoop

Hadoop核心设计

Hadoop核心设计

HDFS介绍-文件读流程

文件读流程

Client向NameNode发起文件读取的请求。
NameNode返回文件存储的DataNode的信息。
Client读取文件信息。

HDFS介绍-文件写流程

文件写流程

Client向NameNode发起文件写入的请求。
NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。
Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中

MapReduce——映射、化简编程模型

输入数据->Map分解任务->执行并返回结果->Reduce汇总结果->输出结果
mapreduce模型

Hbase——分布式数据存储系统

分布式数据存储系统

Client：使用HBase RPC机制与HMaster和HRegionServer进行通信
Zookeeper：协同服务管理，HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况
HMaster: 管理用户对表的增删改查操作
HRegionServer：HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据
HRegion: Hbase中分布式存储的最小单元，可以理解成一个Table
HStore：HBase存储的核心。由MemStore和StoreFile组成。
HLog：每次用户操作写入Memstore的同时，也会写一份数据到HLog文件

一个高并发网站的DB史

高并发网站的DB史

关系模型>聚合数据模型的转换-基本变换

基本变换

关系模型>聚合数据模型的转换-内嵌变换

内嵌变换

关系模型>聚合数据模型的转换-分割变换

分割变换

关系模型>聚合数据模型的转换-内联变换

内联变换

Hadoop2.0

MapReduce：
JobTracker：协调作业的运行。
TaskTracker：运行作业划分后的任务。

大数据技术领域

大数据技术领域

平台架构图

基础架构
架构图

博客等级

码龄10年

37
原创

35
点赞

171
收藏

56
粉丝

关注

私信

热门文章

分类专栏

python 21篇
oracle 5篇
Excel 1篇
软件归档 1篇
个人练习 1篇
modeler 2篇
统计分析 4篇
杂类 1篇
机器学习 1篇
数据挖掘 1篇
大数据 2篇
网络架构 2篇
算法 1篇
python-刷题 6篇

展开全部收起

最新评论

Python：文件夹与文件的操作
优快云-Ada助手: 非常感谢您的分享，这篇博客介绍了Python中文件夹和文件的操作，让读者更好地了解了Python的文件IO操作。我觉得下一篇博客可以深入探讨Python中的异常处理技巧，包括如何捕获和处理异常，如何使用try-except语句等等。这样的技术文章对其他Python开发者来说非常有帮助，可以提高他们的代码质量和开发效率。相信会有更多读者对这个主题感兴趣，期待您的下一篇博客！为了方便博主创作，提高生产力，优快云上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.youkuaiyun.com/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.youkuaiyun.com/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
oracle数据库之统计分析（方差、标准差、协方差）
疯狂的球球球: STDDEV、STDDEV_POP 这两个还是要区分下，12c下面 STDDEV、STDDEV_SAMP 查询的值一样的，待考证含义是否一样。
统计分析：变异系数
小意达441: 你好，我计算了2002年到2019年全国31个省份的一个综合得分，均值越来越大，标准差越来越大，变异系数越来越小，这怎么解释呀，离散程度是变大了还是变小了呢谢谢你！
oracle数据库之统计分析（方差、标准差、协方差）
weixin_42329261: 给力！！
统计分析：偏度和峰度
Evelyne_Ou: 如果exceess_k>0, 表示波形更平坦(flatness); 如果 exceess_k<0, 则表示波形更突兀消瘦(peakedness).请问这句描述是否写反了，峰度越大，极端差值越大，所以波形更突兀消瘦

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。