
Spark
文章平均质量分 90
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。
(YSY_YSY)
有道无术,术尚可求;有术无道,止于术。
展开
-
Spark运行架构
Spark运行架构1.1 运行架构1.2 核心组件1.2.1 Driver1.2.2 Executor1.2.3 Master & Worker1.2.4 ApplicationMaster1.3 核心概念1.3.1 Executor 与 Core1.3.2 并行度(Parallelism)1.3.3 有向无环图(DAG)1.4 提交流程1.2.1 Yarn Client 模式1.2.2 Yarn Cluster 模式 1.1 运行架构 Spark框架的核心是一个计算引擎,整体来说,它采用了标准ma原创 2022-02-22 16:34:58 · 754 阅读 · 0 评论 -
Spark 运行环境
Spark 运行环境1.Local模式1.1解压缩文件1.2启动Local环境1.3命令行工具1.4退出本地模式1.5提交应用2.Standalone模式2.1修改配置文件2.2启动集群2.3提交应用2.4提交参数说明2.5配置历史服务2.6 K8S & Mesos 模式2.7 Windows 模式2.8 部署模式对比2.9 端口号 Spark 作为一个数据处理框架和计算引擎,被设计在所有常见的集群环境中运行, 在国内工作中主流的环境为 Yarn,不过逐渐容器式环境也慢慢流行起来。接下来,我们就分原创 2021-11-20 10:51:21 · 1948 阅读 · 0 评论 -
Spark快速上手
Spark快速上手1.创建Maven插件1.1增加Scala插件1.2 增加依赖关系1.3WordCount1.4 异常处理 在大数据早期的课程中我们已经学习了 MapReduce 框架的原理及基本使用,并了解了其底层数据处理的实现方式。接下来,就让咱们走进 Spark 的世界,了解一下它是如何带领我们完成数据处理的。 1.创建Maven插件 1.1增加Scala插件 Spark 由 Scala 语言开发的,所以本课件接下来的开发所使用的语言也为 Scala,咱们当前使用的 Spark 版本为 3.0.原创 2021-11-19 19:47:01 · 1563 阅读 · 0 评论 -
Spark概述
Spark概述1.1 Spark是什么1.2 Spark and Hadoop1.3 Spark or Hadoop1.4 Spark 核心模块 1.1 Spark是什么 Spark 是一种基于内存的快速,通用,可扩展的大数据分析计算引擎 1.2 Spark and Hadoop 首先从时间节点上来看: ➢Hadoop 2006年1月,Doug Cutting加入Yahao,领导Hadoop的开发 2008年1月,Hadoop成为Apache顶级项目 2011年1.0正式发布 2012年3月稳定版发布原创 2021-09-27 11:22:49 · 148 阅读 · 0 评论