大数据：大规模文件系统及map-reduce

最新推荐文章于 2020-09-26 20:28:55 发布

快乐的霖霖

最新推荐文章于 2020-09-26 20:28:55 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/chdhust/article/details/8605483

数据挖掘专栏收录该内容

19 篇文章

订阅专栏

本文介绍了大数据处理中的关键组件——分布式文件系统与Map-Reduce的工作原理。重点探讨了文件多副本存储、容错机制以及Map-Reduce如何通过将任务分解来处理大规模数据集。此外还提到了Hadoop作为实现这些概念的具体平台。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据：大规模文件系统及map-reduce

下面是我看《大数据—互联网大规模数据挖掘与分布式处理》一书第二章的总结。

1 分布式文件系统：distributed file system

文件多副本存储，计算任务分多个，容错。

文件非常大（TB），文件极少更新

2 Map-reduce：

a 多个map任务，每个任务输入是DFS的一个或者多个文件块。

b 主控制器从每个map任务中收集一系列键值对

c reduce任务每次作用于一个键

经典任务：统计多个文本中单词的频率。

节点失效时要有相应的容错组织

map-reduce应用：矩阵向量乘法，关系代数运算（选择，投影，并交差，自然连接，分组聚合）

map-reduce扩展：Pregel系统（递归失效解决方案）

Hadoop：HDFS与map-reduce结合实现

工作流系统：map-reduce一般化为支持任意无环函数集系统，每个函数都可实例化为任意数目的任务，每个任务在一部分数据上执行对应函数

递归工作流：递归关系函数集，系统不保证节点失效，可在计算工作过程中设立检查点

通信开销模型：map-reduce小任务开销简单，主要开销在于数据从创建到使用的开销。

多路链接，星形连接。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。