Spark系列--SparkSQL(三)执行SparkSQL查询

最新推荐文章于 2025-06-23 11:42:20 发布

淡淡的倔强

最新推荐文章于 2025-06-23 11:42:20 发布

阅读量9.6k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Spark

本文链接：https://blog.youkuaiyun.com/u012834750/article/details/81164990

本文详细介绍了如何使用SparkSession进行SparkSQL查询，包括在Spark-Shell中执行查询，IDEA中创建SparkSQL程序以及利用Spark SQL CLI进行命令行查询。文章还提到了与Hive的集成和相关依赖的配置。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

SparkSession

在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

import org.apache.spark.sql.SparkSession  

val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate()  

// For implicit conversions like converting RDDs to DataFrames 
import spark.implicits._