SparkContext和SparkSession

创建SparkSession详解

最新推荐文章于 2025-04-01 21:00:00 发布

原创最新推荐文章于 2025-04-01 21:00:00 发布 · 674 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark

本文详细介绍如何使用SparkSession作为Spark应用程序的入口，推荐使用SparkSession的构建器方法而非过时的SparkContext，以确保应用程序的稳定性和避免上下文冲突。文章还提供了使用Scala语言创建SparkSession的示例代码。

任何Spark应用程序的第一步都是创建一个SparkSession。在交互模式中，通常已经为你预先创建了，但在应用程序中你必须自己创建。一些老旧的代码可能会使用new SparkContext这种方法创建，但是应该尽量避免使用这种方法，而是推荐使用SparkSession的构建器方法，该方法可以更稳定地实例化Spark和SQL Context，并确保没有多线程切换导致的上下文冲突，因为可能有多个库试图在相同的Spark应用程序中创建会话：

// 采用Scala语言创建SparkSession
import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName("Databricks Spark Example")
.config("spark.sql.warehouse.dir", "/user/hive/warehouse")
.getOrCreate()

在创建SparkSession后，你就应该可以运行你的Spark代码了。通过SparkSession，你可以相应地访问所有低级的和老旧的Spark功能和配置。请注意，SparkSession类是在Spark 2.X版本后才支持的，你可能会发现较旧的代码会直接为结构化API创建SparkContext和SQLContext。