
Spark
文章平均质量分 88
Mmj666
数据开发爱好者
展开
-
Spark核心编程(4)--Spark运行架构
Spark核心编程(4)–Spark运行架构 4.1 运行架构 Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构 4.2核心组件 Spark 框架有两个核心组件: 4.2.1 Driver Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。 Driver 在 Spark 作业执行时主要负责: 将用户程序转化为作业(job) 在 Executor 之间调度任务(task) 跟踪 Executor 的执行情况 通过原创 2021-11-29 21:13:43 · 156 阅读 · 0 评论 -
1 SparkSQL概述
1 SparkSQL概述 1.1 SparkSQL是什么 Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。 1.2 Hive and SparkSQL Shark出现了两个分支:SparkSQL 和 Hive on Spark SparkSQL 作为 Spark 生态的一员继续发展,而不再受限于 Hive,只是兼容 Hive; Hive on Spark 是一个 Hive 的发展计划,该计划将 Spark 作为 Hive 的底层引擎之一,原创 2021-11-25 20:27:32 · 577 阅读 · 0 评论 -
5. Spark核心编程(1)
5. Spark核心编程(1) Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。三大数据结构分别是: RDD:弹性分布式数据集 累加器:分布式共享只写变量 广播变量:分布式共享只读变量 5.1 RDD 5.1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。原创 2021-11-25 17:16:52 · 138 阅读 · 0 评论 -
1. Spark概述
1. Spark概述 1.1 Spark简介 Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎 1.2 Spark和Hadoop的关系 Hadoop: hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架 作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储着所有的数据,支持着Hadoop的所有服务。 MapReduce是一种编程模型。作为Hadoop的分布式计算模型,是Hadoop的核心。基于这个框架,分布原创 2021-11-23 22:59:21 · 227 阅读 · 2 评论