大数据:大规模文件系统及map-reduce

本文介绍了大数据处理中的关键组件——分布式文件系统与Map-Reduce的工作原理。重点探讨了文件多副本存储、容错机制以及Map-Reduce如何通过将任务分解来处理大规模数据集。此外还提到了Hadoop作为实现这些概念的具体平台。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大数据:大规模文件系统及map-reduce 

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。

1 分布式文件系统:distributed file system

文件多副本存储,计算任务分多个,容错。

文件非常大(TB),文件极少更新

2 Map-reduce:

a 多个map任务,每个任务输入是DFS的一个或者多个文件块。

b 主控制器 从每个map任务中收集一系列键值对

c reduce任务每次作用于一个键

经典任务:统计多个文本中单词的频率。

节点失效时要有相应的容错组织

map-reduce应用:矩阵向量乘法,关系代数运算(选择,投影,并交差,自然连接,分组聚合)

map-reduce扩展:Pregel系统(递归失效解决方案)

Hadoop:HDFS与map-reduce结合实现

工作流系统:map-reduce一般化为支持任意无环函数集系统,每个函数都可实例化为任意数目的任务,每个任务在一部分数据上执行对应函数

递归工作流:递归关系函数集,系统不保证节点失效,可在计算工作过程中设立检查点

通信开销模型:map-reduce小任务开销简单,主要开销在于数据从创建到使用的开销。

多路链接,星形连接。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值