Spark SQL 学习笔记

最新推荐文章于 2023-06-14 12:36:19 发布

*Snowgrass*

最新推荐文章于 2023-06-14 12:36:19 发布

阅读量680

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark

本文链接：https://blog.youkuaiyun.com/qq_36535820/article/details/99936128

本文详细介绍了Spark SQL的使用，包括初始化SparkContext、创建DataFrame、使用Case Class、选择、过滤、分组等操作，以及与RDD、JSON文档、HiveContext和Parquet文件的交互。内容涵盖SQLContext的初始化、DataFrame的创建与操作、Hive表的管理和查询，展示了Spark SQL在数据处理中的强大功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

SQLContext

1.初始化SparkContext命令

2.创建SQLContext命令：

（1）Spark中使用toDF函数创建DataFrame

SQLContext

SQLContext是一个类，用于初始化Spark SQL的功能。Spark SQL提供对读取和写入自动捕获原始数据模式的镶木地板文件的支持。

1.初始化SparkContext命令

进入spark bin目录中，输入：spark-shell，SparkContext对象在spark-shell启动时用namesc初始化（默认）。

D:\spark-2.4.3-bin-hadoop2.7\bin> spark-shell

显示：

如上所示，出现scala，表示成功进入scala。

2.创建SQLContext命令：

scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc)

显示：

（1）Spark中使用`toDF`函数创建DataFrame

//命令生成SQLContext,scmeans是SparkContext对象.
scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc)

//用于将RDD隐式转换为DataFrame的所有SQL函数
scala> import sqlcontext.implicits._

scala> val df = Seq(
   (1, "First datetime", java.sql.Date.valueOf("2019-08-01")),
   (2, "Last datatime", java.sql.Date.valueOf("2019-08-30"))
 ).toDF("index", "string_column", "date_column")

//查看数据
scala> df.show

//查看DataFrame的Structure（Schema）
scala> df.printSchema()

显示：

Spark读取本地TXT文件创建DataFrame

通过使用以下命令从名为ceshi.txt的文本文件读取数据来创建RDD DataFrame。

scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc)

scala> import sqlcontext.implicits._

scala> val people = sc.textFile("E:\\ceshi.txt").map(_.split(",")).toDF()

scala> people.show

注：.map（_.split（“,”））：将文本记录分割成字段。
toDF()方法：用于将具有模式的案例类对象转换为DataFrame。
显示：