Python_机器学习_Hadoop海量数据实现原理

White.Magic

于 2020-06-21 16:32:11 发布

阅读量555

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44659258/article/details/106877150

版权

Hadoop海量数据实现原理

单点结构面临的问题
集群架构面临的问题
Hadoop集群架构
冗余化数据存储
分布式文件系统

单点结构

在这里插入图片描述

海量数据例子

在这里插入图片描述

集群架构

在这里插入图片描述

2. 集群架构面临的问题

节点故障

在这里插入图片描述

网络带宽瓶颈

在这里插入图片描述

3. Hadoop 分布式集群

在这里插入图片描述

Map-Reduce集群运算问题的解决方案

在多节点上冗余地存储数据，以保证数据的持续性
将计算移向数据端，以最大程度减少数据移动
简单的程序模型，隐藏所有的复杂度

4.冗余化数据存储结构

分布式文件存储系统：

提供全局的文件命名空间，冗余度和可获取性
例如Google的GFS，hadoop的HDFS

典型的应用场景与模式：

超大级别的数据量（100GB到100TB级别）
数据很少被全部替换
最常见的操作为读取和追加数据

5. 分布式文件系统

数据以‘块状’形式在多台机器上存储
每个数据块都会重复地在多台机器上存储
保证数据的持续性和随时可取性
服务器块同时也用作计算服务器
把运算挪向数据处

服务器块：

文件被分作16-64MB大小的连续块
每个文件块会被重复的存储2到3次
尽量保证重复的数据块在不同的机架上

主节点：

Hadoop的HDFS里叫做Name节点
存储元数据记录文件存储结构和地址
最常见的操作为读取和追加数据

文件访问的客户端库：

询问主节点以获取块服务器地址
直接连接相应服务器块获取数据

Map Reduce变换数据

Hadoop组成

Hadoop Common
工具包，为其它hadoop模块提供基础设施
Hadoop HDFS
分布式文件系统，对海量数据存储
Map-Reduce
分布式处理策略，计算模型，对海量数据处理
Ya

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。