
Spark 基础
大数据系统工程师
这个作者很懒,什么都没留下…
展开
-
spark 基础 上
Spark 是专为大规模数据处理而设计的快速通用的计算引擎,是apache的一个开源项目。是一种跟hadoop相似的通用分布式并行计算框架,但是两者之间还存在一些不同之处。spark是一种基于内存计算的分布式执行框架,在执行速度上大大优于hadoop. 1. spark的历史 2009年,spark诞生于加州大学伯克利分校AMPLab. 2010和2012年关于spark的两篇论文发表: M.转载 2018-01-10 16:26:01 · 393 阅读 · 0 评论 -
spark 基础 下
上篇介绍了spark的突出特点以及基本框架,下面给大家介绍下spark的基本数据结构、spark任务调度的详细流程以及spark中stage的划分。 5. spark的基本数据类型 RDD、DataFrame和DataSet可以说是spark独有的三种基本的数据类型。Spark的核心概念是RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,转载 2018-01-10 16:42:03 · 632 阅读 · 0 评论