
spark
文章平均质量分 83
black_hnu
开始做点小笔记,如有错误,请多多指正lively0_0@hnu.edu.cn
展开
-
spark原理:概念与架构、工作机制
一、Hadoop、Spark、Storm三大框架比较Hadoop:离线海量数据批处理,基于磁盘的Spark:基于内存。Spark特点:运行速度快,使用DAG执行引擎以支持循环数据流与内存计算,2、容易使用:多种语言编程,通过spark shell进行交互式编程3、通用性:提供了完整而强大的技术栈,包括sQL查询、流式计算、机器学习和图算法组件4、运行模式多样:可运行在独立集...原创 2018-09-03 11:05:37 · 21561 阅读 · 1 评论 -
Spark RDD
At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. 来自 <http://spark.apache.org/docs/la...原创 2018-09-03 11:07:31 · 190 阅读 · 0 评论 -
Spark工作机制
内部运行机制任务分配、IO模块、通信控制模块、容错模块、Shuffle模块。采用的算法:FIFO、FIAR算法,通信采用AKKA框架1、spark执行机制:spark应用提交后经历了一系列转换最后成为Task在每个节点上执行。大体的执行流程:RDD的Actions操作除非Job的提交,提交到spark中的job生成RDD DAG,由DAG Scheduler转换为stage中的ta...原创 2018-09-03 11:11:37 · 2901 阅读 · 0 评论