看书Apache Spark 1

天天看漫画

于 2021-03-01 13:11:12 发布

阅读量97

点赞数

任意创作

本文链接：https://blog.youkuaiyun.com/qq_36705705/article/details/114252110

版权

看书Apache Spark 1
大数据处理框架
Apache Spark
设计与实现

在这里插入图片描述

第一章大数据处理框架概览

1.大数据带来的挑战数据量大数据类型多样产生处理速度快价值密度低的4V特性
传统处理系统难以在可接受的时间内对数据进行高效处理
2.大数据处理框架 2004年Google提出基于分治归并和函数式编程思想的MapReduce分布式计算框架。
2007年微软提出Dryad分布式计算框架，它允许用户将任务组织成有向无环图DAG。
2012年AMPLab提出基于内存适合于迭代计算的Spark分布式处理框架。
3.大数据编程模型以上处理框架都是基于MapReduce编程模型为基础其编程模型可被简单表示为：

map阶段： map<K1,V1> => list<K2,V2>
reduce阶段：reduce<K2,list(V2)> => list<K3,V3>

除此之外 Spark设计一些对用户更加友好的操作符如 flatMap() groupByKey() reduceByKey等可以表达更复杂的数据处理流程。
4.大数据应用可表示为<输入数据用户代码配置参数>
大数据处理框架可表示为<用户层分布式数据并行处理层资源管理与任务调度层物理执行层>
5.为什么拆分Stage 首先每个操作一次完成当成一个任务效率太低而且容错困难，划分stage后第一个好处式生成的task不会太大也不会太小便于并行执行其次多个操作放到一个Task中可以串行流水线式处理提高处理效率第三个好处是方便错误容错可以重新运行stage而不需要整个job。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。