spark2.x---2. SparkContext构成与初始化

最新推荐文章于 2024-04-30 00:20:59 发布

shuitai2017

最新推荐文章于 2024-04-30 00:20:59 发布

阅读量435

点赞数

CC 4.0 BY-SA版权

分类专栏： spark源码分析

本文链接：https://blog.youkuaiyun.com/shuitai2017/article/details/73754245

spark源码分析专栏收录该内容

6 篇文章

订阅专栏

此摘要仅为示例内容，用于展示如何生成符合要求的摘要信息，实际应用中应当包含关键信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

shuitai2017

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

spark学习-30-spark2.2.0的SparkContext初始化

九师兄

07-04

2040

　　Spark源代码该怎么看，那就是看SparkContext类，只要你看懂了SparkContext，就懂得了Spark，因为这个是Spark程序的入口，也是最基础的。１ sparkContext的主要构造器参数为SparkConf,实现如下 class SparkContext(config: SparkConf) extends Logging { // The call...

[Spark基础]-- Spark Scheduler 原理剖析

欢迎来到我的博客，一起探索代码里的世界！

07-17

814

转自：https://www.qcloud.com/community/article/835460 作者 |涂小刚编辑 | 顾乡通过文章“【Spark教程】核心概念RDD”我们知道，Spark的核心是根据RDD来实现的，Spark任务调度则为Spark核心实现的重要一环。Spark的任务调度就是如何组织任务去处理RDD中每个分区的数据，根据RDD的依赖关系构建DAG，基于DAG划分Sta...

参与评论您还未登录，请先登录后发表或查看评论

Spark2.x源码阅读之SparkContext

LMR的博客

06-19

6775

本文主要介绍SparkContext中的主构造方法里面的内容，即初始化过程，其中调用的方法留到后面讲解。 try { _conf = config.clone()//拷贝配置文件 _conf.validateSettings()//验证配置文件是否有错 if (!_conf.contains("spark.master")) {//没有设置Master则报错 ...

Spark2.2中 SparkContext的初始化操作

阿生

02-03

1846

Spark2.2中SparkContext的初始化操作 SparkContext的主构造函数中执行（也就是一定会） val (sched, ts) = SparkContext.createTaskScheduler(this, master, deployMode) graph TB A[SparkContext] -->|主构造函数内调用| B[createTask

Spark2.2源码剖析——SparkContext初始化及Spark环境创建

Jorocco的博客

01-15

631

阅读指导：在《Spark2.2——SparkContext概述》一文中，曾经简单介绍了SparkEnv。本节内容将详细介绍SparkEnv的创建过程。在Spark中，凡是需要执行任务的地方就需要SparkEnv。在生产环境中，SparkEnv往往运行于不同节点的Executor中。但是由于local模式在本地执行的需要，因此在Driver本地的Executor也需要SparkEnv。Sp...

spark源码学习（一）---sparkContext(2)

colossus——bigdata的专栏

02-03

738

前面分析了sparkContext的TaskScheduler的启动过程，大致过程是创建一个TaskScheduler和一个SchedulerBackend，SchedulerBackend做为TaskScheduler的底层组件使用，TaskScheduler与master的交互都通过该组件完成。SchedulerBackend构造一个appdesc传给APPClient，AppClient会将

spark3.x 《自我总结》

qq_45769990的博客

05-06

442

spark四种运行模式: local Mode本地模式 Standalone集群模式（伪分布式模式） Spark on Yarn 模式：分为两种方式:Spark Client模式和Spark cluster模式 mr-jobhistory-daemon.sh start historyserver yarn的历史服务器(HistoryServer) /export/server/spark/sbin/start-history-server.sh spark的历史服务器(JobHistoryServ

头歌：Spark案例剖析 - 谷歌网页排名引擎PageRank实战

weixin_62399938的博客

04-30

2722

下面我们重点介绍Spark SQL的初始化，数据库的使用，外部数据的导入，从而将网页数据导入数据库中方便之后处理。Spark SQL是Spark自带的数据库，本关你将应用Spark SQL的数据导入工具实现文本数据的导入。总的来说，就是预先给一个网页PR值（此处用PR代替PageRank值），由于PR的现实意义是一个网页被访问的概率，一般为1/N,网页的总数为N,并且所有的网页PR总值为1。如果一个PageRank值很高的网页链接到一个其他的网页，那么被链接到的网页的PageRank值会相应地因此而提高。

Spark Streaming 指南--Spark2.4.3

olu

06-15

1527

目录总览快速入门基本概念连接初始化StreamingContext离散Streams(DStreams)输入DStreams和接收器基本数据源高级数据源Receiver的可靠性DStreams上的transformationsUpdateStateByKey 操作transformation操作window操作Join操作Stream-stream joinStream-dataset joinD...

SparkContext的初始化（仲篇）——SparkUI、环境变量及调度

热门推荐

beliefer的博客

02-23

2万+

任何系统都需要提供监控功能，用浏览器能访问具有样式及布局，并提供丰富监控数据的页面无疑是一种简单、高效的方式。SparkUI就是这样的服务，它的构成如图3-1所示。

第二节 Spark2.3源码解析之SparkContext的创建及源码

Future的博客

08-07

989

一目录 SparkContext定义从源码中看出SparkContext包含哪些功能重点解读createTaskScheduler SparkContext初始化时TaskSchedulerImpl两个接口资源管理调度策略FIFO和FAIR 二明细 SparkContext的定义开发Spark应用的入口,它负责和整个集群进行交互,包括创建RDDs,accumulator...

Spark2.x学习笔记：1、Spark2.2快速入门（本地模式）

程裕强的专栏

08-29

7472

Spark学习笔记1：Spark2.2快速入门1.1 Spark本地模式学习Spark，先易后难，先从最简单的本地模式学起。本地模式（local），常用于本地开发测试，解压缩Spark软件包就可以用，也就是所谓的“开封即用”1.2 安装JDK8（1）下载登录Oracle官网http://www.oracle.com/technetwork/java/javase/downloads/jdk8-d

SparkContext初始化过程

u011564172的博客

02-08

1万+

SparkContext是程序执行的入口，一个SparkContext代表一个应用，深入理解spark运行时机制，首先要了解SparkContext初始化过程。

Spark Release 2.2.0 最新版本发布，Spark 2.2.0是Spark 2.x中第一个在生产环境可以使用的版本，对于Spark具有里程碑意义

大模型与Agent智能体

07-18

4542

第2章 Spark 2.X技术及原理 Apache官方网站于2017年7月11日发布了Spark Release 2.2.0版本， Apache Spark 2.2.0版本是Spark 2.x系列上的第三个版本。Spark 2.2.0是Spark 2.x中第一个在生产环境可以使用的版本，对于Spark具有里程碑意义。Spark 2.2.0版本中 Structured Streaming 的实验性标

SparkContext的初始化

张之海的博客

02-19

1607

SparkContext的初始化步骤如下： 1 创建Spark执行环境SparkEnv 1.2 什么是SparkEnv？ SparkEnv是Spark的执行环境对象，其中包括许多与Executor执行相关的对象，所以SparkEnv存在于需要创建Executor的进程中。那么需要创建Executor的进程有哪些呢？在local模式下，Driver进程中会创建Executor。在local-c...

Spark2.1.0——SparkContext概述

beliefer的博客

11-12

2934

Spark应用程序的提交离不开Spark Driver，后者是驱动应用程序在Spark集群上执行的原动力。了解Spark Driver的初始化，有助于读者理解Spark应用程序与Spark Driver的关系。 Spark Driver的初始化始终围绕着SparkContext的初始化。SparkContext可以算得上是Spark应用程序的发动机引擎，轿车要想跑起来，发动机首先要启动。Spar...

SparkContext主要组成部分

大冰的小屋

09-07

7286

1. 基本说明SparkContext是应用程序的提交执行的前提。先来看一下SparkContext的注释：/** * Main entry point for Spark functionality. A SparkContext represents the connection to a Spark * cluster, and can be used to create RDDs, ac

SparkContext初始化

初心江湖路的博客

09-29

592

· 前言本文主要目的是弄清楚SparkContext中比较重要的组件的初始化顺序及产生的作用，以此对Spark大数据引擎的实现原理有深入一点的认识。个人觉得，SparkContext可以比喻成Spark世界的一扇窗户，打开窗子便能了解屋内的一个大致全貌。对于从整体上来学习和掌握Spark很有帮助。我个人也是基于这样的目的写这些文章。 SparkContext，字面意思很形象，即Spark...

《深入理解SPARK：核心思想与源码分析》——SparkContext的初始化（仲篇）——SparkUI、环境变量及调度...

weixin_30457551的博客

02-22

340

《深入理解Spark：核心思想与源码分析》一书前言的内容请看链接《深入理解SPARK：核心思想与源码分析》一书正式出版上市《深入理解Spark：核心思想与源码分析》一书第一章的内容请看链接《第1章环境准备》《深入理解Spark：核心思想与源码分析》一书第二章的内容请看链接《第2章SPARK设计理念与基本架构》由于本书的第3章内容较多，所以打算分别开辟四篇随笔分别展现。 ...

spark与虚拟机

最新发布

03-19

### 安装、配置和运行 Apache Spark 的方法 #### 下载并解压安装包为了在虚拟机上安装 Spark，首先需要下载其二进制分发版。通常可以从官方 Apache Spark 网站获取最新稳定版本的压缩包。将其上传到虚拟机并通过命令行工具进行解压。 ```bash tar -xvzf spark-<version>-bin-hadoop<version>.tgz mv spark-<version>-bin-hadoop<version> /opt/spark ``` 此操作会将 Spark 解压至指定路径 `/opt/spark` 中[^1]。 --- #### 配置环境变量为了让系统能够识别 Spark 命令，在全局环境中设置 `SPARK_HOME` 和更新 `$PATH` 是必要的。编辑 `.bashrc` 或者其他 shell 初始化脚本文件： ```bash export SPARK_HOME=/opt/spark export PATH=$SPARK_HOME/bin:$PATH ``` 随后通过以下命令使更改生效： ```bash source ~/.bashrc ``` 此外还需要确认 Java 开发套件 (JDK) 已经被正确安装，并且设置了相应的环境变量 `JAVA_HOME`: ```bash export JAVA_HOME=/path/to/jdk export PATH=$JAVA_HOME/bin:$PATH ``` 上述 JDK 路径应替换为实际安装位置[^3]。 --- #### 修改 Spark 配置文件进入 Spark 的配置目录 (`conf`) 并复制模板文件作为正式使用的配置基础： ```bash cd $SPARK_HOME/conf cp spark-env.sh.template spark-env.sh cp spark-defaults.conf.template spark-defaults.conf ``` 接着打开这些新创建出来的文件来调整参数设定。例如可以在 `spark-env.sh` 文件里加入如下内容以指明 Hadoop 版本以及 Python 支持情况： ```bash export HADOOP_CONF_DIR=/etc/hadoop/conf export PYSPARK_PYTHON=python3 ``` 如果计划启动分布式模式下的集群，则还需定义 Master 地址等相关选项于 `spark-defaults.conf` 内部。 --- #### 校验安装成果完成以上步骤之后可以尝试执行简单的测试程序验证整个流程无误与否。比如利用 PySpark 进入交互式 Shell 来计算 Pi 值： ```python from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession.builder.appName("PythonPi").getOrCreate() partitions = 2 n = 100000 * partitions def f(_): from random import random x, y = random(), random() return 1 if x*x + y*y < 1 else 0 count = spark.sparkContext.parallelize(range(1, n + 1), partitions).map(f).reduce(lambda a, b: a+b) print("Pi is roughly %f" % (4.0 * count / n)) spark.stop() ``` 保存该代码片段成名为 `pi.py` 的独立脚本再调用它即可得到预期输出结果: ```bash pyspark pi.py ``` --- #### 启动 Spark 集群当多台节点构成一个完整的 Spark 集群时，可以通过内置脚本来简化管理过程。假设已经准备好若干 Linux 主机分别命名为 `linux05`, `linux06` 等等，那么可借助 SCP 复制当前机器上的 Spark 发布包过去每台目标服务器上[^4]: ```bash for i in {5..6}; do scp -r /path/to/spark linux0$i:/same/path; done ``` 最后依次登录各成员主机开启服务端口监听状态： ```bash start-master.sh # 在主控节点上调用 start-slave.sh <master-url> # 对从属工作节点而言则需提供上级管理者 URL 参数 ``` 这样就完成了基本的 Spark 集群初始化动作。 ---