spark
baoxitong
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Structured Streaming详解及实用样例
Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做增量和持续的更新计算并且输出最终结果。用户可以使用 Dataset/DataFrame API完成流处理中的常见原创 2020-11-30 17:45:33 · 1657 阅读 · 1 评论 -
Spark Sql实战详解
Spark SQLSpark SQL是构建在Spark RDD之上的一款ETL(Extract Transformation Load)工具,这类似于构建在MapReduce之上的1.x版本的Hive。同Spark RDD的不同之处在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据Spark SQL提供的信息优化底层计算任务。目前为止,Spark SQL提供了两种风格的交互式API:Dataset API/SQL脚本。Dataset原创 2020-11-30 17:41:51 · 494 阅读 · 0 评论 -
Spark核心RDD,从理论到实践
Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务)快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且提供ETL功能同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine Learning、图形关系分析等计算速度快的原因使用先进的DAG(有向无环图)设计MapReduce:矢原创 2020-11-11 17:05:57 · 574 阅读 · 0 评论
分享