1 spark 2.3 引入了 structorstreaming , 有了 微批处理 ,和flink 实时诧异在一个基于RDD,一个基于事件编程,都有checkpoint 注册,spark的checkpoint 需要 手动设置,对于宽依赖数据,恢复数据占用消耗较大,flink只需设置check point 环境 变量。
2 spark= DAG + Executor + Driver + parallel + 算子 + checkpoint + cache (prisist)
3 spark组建: mlib ,core,sql,graphe
4 spark 的操作类型 ,创建create ,转换tranform,持久化prisist,
9392

被折叠的 条评论
为什么被折叠?



