
Spark
龙龙灵
这个作者很懒,什么都没留下…
展开
-
Apache Spark Stream
Apache Spark Stream 一、概述 ⼀般流式计算会与批量计算相⽐较。在流式计算模型中,输⼊是持续的,可以认为在时间上是⽆界的, 也就意味着,永远拿不到全量数据去做计算。同时,计算结果是持续输出的,也即计算结果在时间上也 是⽆界的。流式计算⼀般对实时性要求较⾼,同时⼀般是先定义⽬标计算,然后数据到来之后将计算逻 辑应⽤于数据。同时为了提⾼计算效率,往往尽可能采⽤增量计算代替全量计算。批...原创 2020-04-02 21:12:53 · 269 阅读 · 0 评论 -
Apache Spark SQL
Apache Spark SQL Spark SQL是⽤于结构化数据处理的⼀个模块。同Spark RDD 不同地⽅在于Spark SQL的API可以给Spark计算引擎提供更多地 信息,例如:数据结构、计算算⼦等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这⾥有⼏种⽅式和Spark SQL进⾏交互,例如Dataset API和SQL等,这两种API可以混合使⽤。Spark SQL的...原创 2020-03-29 23:44:09 · 420 阅读 · 0 评论 -
Spark RDD
Spark RDD 一、概述 At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spar...原创 2020-03-29 01:11:23 · 269 阅读 · 0 评论 -
Apache Spark环境搭建(单机版)
Apache Spark环境搭建(单机版) 一、Spark On Yarn 1、Hadoop环境 ①、设置CentOS进程数和⽂件数(可选) [root@centos ~]# vim /etc/security/limits.conf * soft nofile 204800 * hard nofile 204800 * soft nproc 204800 * hard nproc 204800...原创 2020-03-28 17:27:22 · 1014 阅读 · 0 评论 -
Apache Spark
Apache Spark 一、概述 Spark是⼀个快如闪电的统⼀分析引擎(计算框架)⽤于⼤规模数据集的处理。Spark在做数据的批处理 计算,计算性能⼤约是Hadoop MapReduce的10~100倍,因为Spark使⽤⽐较先进的基于 DAG 任务调 度,可以将⼀个任务拆分成若⼲个阶段,然后将这些阶段分批次交给 集群计算节点 处理。 1、MapReduce VS Spark MapRedu...原创 2020-03-28 15:43:01 · 196 阅读 · 0 评论