
Spark
水墨之白
悟已往之不谏,知来者之可追!
展开
-
Spark介绍
一、Spark简介 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP Lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架 二、Spark特性 分布式基于内存的迭代式计算 高效性 Speed Run workloads 100x faster. Apache Spark achiev...原创 2019-11-23 11:05:20 · 376 阅读 · 0 评论 -
Spark工作原理和流程介绍
Spark相关名词解释: Driver 主进程,执行了一个Spark Application的main函数和创建Spark Contex的进程 在Yarn集群中: Yarn-Cluster Driver进程在集群的节点上 Yarn-Client Driver进程存在本地,方便调试,但是会有大量网络传输,不适合生成环境 SparkContext 负责和集群通讯,申请资源,监控集群任务状态 ...原创 2019-01-11 19:53:57 · 937 阅读 · 1 评论 -
Spark之RDD解析
一、RDD定义 分布式弹性数据集,只读的分区集合,不同分区可以被保存在不同的节点上,从而进行并行计算 二、RDD操作 RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进行创建;有时也可以通过应用程序中的集合来创建. 转换 指定RDD之间的相互依赖关系 粗粒度的数据转换操作 适合对数据集执行相同操作的批处理式应用,而不适合用于需要异步、细粒度状态的应用 比如map、fil...原创 2019-05-11 14:55:00 · 416 阅读 · 2 评论