看书Apache Spark 1

看书Apache Spark 1
大数据处理框架
Apache Spark
设计与实现

在这里插入图片描述

第一章 大数据处理框架概览

1.大数据带来的挑战 数据量大 数据类型多样 产生处理速度快 价值密度低 的4V特性
传统处理系统难以在可接受的时间内对数据进行高效处理
2.大数据处理框架 2004年Google提出基于分治归并和函数式编程思想的MapReduce分布式计算框架。
2007年微软提出Dryad分布式计算框架,它允许用户将任务组织成有向无环图DAG。
2012年AMPLab提出基于内存适合于迭代计算的Spark分布式处理框架。
3.大数据编程模型 以上处理框架都是基于MapReduce编程模型为基础 其编程模型可被简单表示为:

map阶段: map<K1,V1> => list<K2,V2>
reduce阶段:reduce<K2,list(V2)> => list<K3,V3>

除此之外 Spark设计一些对用户更加友好的操作符 如 flatMap() groupByKey() reduceByKey等 可以表达更复杂的数据处理流程。
4.大数据应用可表示为<输入数据 用户代码 配置参数>
大数据处理框架可表示为<用户层 分布式数据并行处理层 资源管理与任务调度层 物理执行层>
5.为什么拆分Stage 首先每个操作一次完成当成一个任务效率太低 而且容错困难,划分stage后第一个好处式生成的task不会太大也不会太小便于并行执行 其次多个操作放到一个Task中可以串行 流水线式处理 提高处理效率第三个好处是方便错误容错 可以重新运行stage而不需要整个job。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值