spark计算框架
策马出凉州
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Structured Stream结构化流
Structured Stream 概述 Structured Stream是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。使得⽤户可以像使⽤Spark SQL操作静态批处理计算⼀样使⽤Structured Stream的SQL操作流计算。当流数据继续到达时,Spark SQL引擎将负责递增地,连续地运⾏它并更新最终结果。使⽤ Dataset/DataFrame API 实现对实时数...原创 2020-03-03 20:31:13 · 519 阅读 · 0 评论 -
SparkSQL(章节四)
SparkSQL的API(章节四) Spark SQL是⽤于结构化数据处理的⼀个模块。同Spark RDD 不同地⽅在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算⼦等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这⾥有⼏种⽅式和Spark SQL进⾏交互,例如Dataset API和SQL等,这两种API可以混合使⽤。Spark SQL...原创 2020-02-27 10:28:40 · 483 阅读 · 0 评论 -
RDD进阶(章节三)
RDD进阶(章节三) 分析WordCount sc.textFile("hdfs:///demo/words/t_word") //RDD0 .flatMap(_.split(" ")) //RDD1 .map((_,1)) //RDD2 .reduceByKey(_+_) //RDD3 finalRDD .collect //Array 任务提交 RDD都有哪...原创 2020-02-21 20:18:35 · 190 阅读 · 0 评论 -
Spark RDD (章节二)
Spark RDD (章节二) Apache Spark常见问题解答 Spark与Apache Hadoop有何关系? Spark是与Hadoop数据兼容的快速通用处理引擎。它可以通过YARN或Spark的独立模式在Hadoop群集中运行,并且可以处理HDFS,HBase,Cassandra,Hive和任何Hadoop InputFormat中的数据。它旨在执行批处理(类似于MapReduce)和...原创 2020-02-20 17:45:25 · 317 阅读 · 0 评论 -
Spark的架构概述(章节一)
Spark的架构概述(章节一) 背景介绍 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度(有向无环计算),可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。 mapreduce计算分为两步,map阶段和...原创 2020-02-17 21:51:26 · 297 阅读 · 0 评论
分享