学习笔记(67):第二章：海量数据的处理与挖掘-Map Reduce思想变换数据key-value_05

果儿_wj

于 2020-02-26 16:18:14 发布

阅读量211

点赞数

分类专栏：研发管理文章标签：海量数据编程语言 Python hadoop class

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wj1408421029/article/details/104519260

版权

研发管理专栏收录该内容

72 篇文章

订阅专栏

立即学习:https://edu.youkuaiyun.com/course/play/26303/334550?utm_source=blogtoedu

上面是在map和reducer之间加了combiner，增加了任务性能

总结：

1. reduce需要写函数，map有时候不用写

2. map工作主要修改key，reducer主要修改values

3. 对已有的算法惊醒map-reducer化

4. map对一个键值对输入产生一序列中间键值对

5. map函数将对所有输入键值对操作

6. 相同的key值被reducer放在一起，reducer函数对每一个不同的key进行操作

7. map和reducer属于分治思想，通过hash分桶来处理，map是发散过程，reducer是收敛过程

8. map任务数目远大于reducer

9. map-reducer会有输入输出，输出后再次进入map-reducer，如此循环迭代，在磁盘级别的操作，所以开销会很大，spark是在内存级别的操作，所以对内存开销会很大，但速度很快

10. spark稳定不如map，spark只读一次

11. map-reducer主要做特征的转换，数据的提取，转换，处理写入

12. 做特征的用map，reduce，导出的特征用于机器学习训练的用spark建模，用hadoop streaming方便任何语言编写map-reducer

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。