
Spark
dingleilovewanping
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Spark Stanalone HA(Spark高可用集群的搭建)
Standalone集群构建基础环境准备物理资源:CentOSA/B/C-6.10 64bit 内存2GB主机名IPCentOSA192.168.12.143CentOSB192.168.12.144CentOSC192.168.12.145节点与主机映射关系主机节点服务CentOSANameNode、ZKFC、Z...原创 2019-10-13 14:06:16 · 245 阅读 · 0 评论 -
Structured Streaming
Structured Streaming什么是Structured Streaming泛指使用SQL操作Spark的流处理。Structured Streaming是一个scalable 和 fault-tolerant 流处理引擎,该引擎是构建Spark SQL之上。可以使得用户以静态批处理的方式去计算流处理。Structured Streaming底层毁掉用SparkSQL 引擎对流数据做...原创 2019-10-13 14:04:44 · 397 阅读 · 0 评论 -
Spark SQL
Spark SQLSpark SQL是构建在Spark RDD之上一款ETL(Extract Transformation Load)工具(类似Hive-1.x-构建在MapReduce之上)。同Spark RDD 不同地方在于Spark SQL的API可以给Spark计算引擎提供更多的信息(计算数据结构、转换算子),Spark计算引擎可以根据SparkSQL提供的信息优化底层计算任务。目前为...原创 2019-10-13 14:00:56 · 392 阅读 · 0 评论 -
Spark DStreams
Spark DStreamsDStreams是什么DStreams是构建在Spark RDD之上的一款流处理工具,意即Spark DStreams并不是一个严格意义上的流处理,底层通过将RDD 在时间轴上分解成多个小的 RDD-micro batch流 | 批处理计算类型数据量级计算延迟输入数据输出计算形式批处理MB=>GB=>TB几十分钟|几个...原创 2019-10-13 13:59:33 · 267 阅读 · 0 评论 -
Spark RDD学习资料
Apache Spark框架概述Apache Spark是一个快如闪电的统一的分析引擎(仅仅是一款分析引擎,不提供存储服务)快:相比较于第一代基于磁盘计算的离线分析框架MapReduce而言,Spark基于内存计算 较快统一:Spark提供统一的API访问接口,实现了批处理和流处理的统一,并且提供ETL功能同时提供对大规模数据集的全栈式解决方案:批处理、流处理、SQL、Machine L...原创 2019-10-05 11:22:53 · 433 阅读 · 0 评论