Spark【使用篇】06：Spark SQL

做一个有趣的人Zz

已于 2025-06-10 10:00:28 修改

阅读量2.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据工程师的成长之路 Spark 文章标签： spark sql hive

于 2022-03-09 10:25:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_40612128/article/details/123350843

大数据工程师的成长之路同时被 2 个专栏收录

136 篇文章 ¥69.90 ¥99.00

订阅专栏

18 篇文章

订阅专栏

本文深入探讨Spark SQL，从DataFrame的概念、创建，到常见的算子操作、DataFrame的SQL支持、RDD转DataFrame的方法，以及load和save操作、SaveMode的使用和内置函数的介绍。详细阐述了DataFrame如何通过Scala和Java代码实现，并提供了多个示例来展示其功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前面我们学习了Spark中的Spark core，离线数据计算，下面我们来学习一下Spark中的Spark SQL。

一、Spark SQL

Spark SQL和我们之前讲Hive的时候说的hive on spark是不一样的。

hive on spark是表示把底层的mapreduce引擎替换为spark引擎。

而Spark SQL是Spark自己实现的一套SQL处理引擎。

Spark SQL是Spark中的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象，就是DataFrame。

DataFrame=RDD+Schema。
它其实和关系型数据库中的表非常类似，RDD可以认为是表中的数据，Schema是表结构信息。DataFrame可以通过很多来源进行构建，包括：结构化的数据文件，Hive中的表，外部的关系型数据库，以及RDD

Spark1.3出现的DataFrame，Spark1.6出现了DataSet，在Spark2.0中两者统一，DataFrame等于DataSet[Row]

二、SparkSession

要使用Spark SQL，首先需要创建一个SpakSession对象。

SparkSession中包含了SparkContext和SqlContext。

所以说想通过SparkSession来操作RDD的话需要先通过它来获取SparkContext。

这个SqlContext是使用sparkSQL操作hive的时候会用到的。

了解本专栏

做一个有趣的人Zz

博客等级

码龄8年

759
原创

4186
点赞

4887
收藏

3225
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Spark【优化篇】02：算子优化

下一篇：: Spark【使用篇】07：TopN主播统计【SparkSQL进行实现】

最新评论

Docker【项目篇】03：打包部署前端项目
Orion0504: 突然明白了，是写nginx的vip对的，因为负载均衡后端服务了所以直接调用后端api，就变成了nginx的ip+nginx负载均衡配置的port，又因为用了nginx+keepalived高可用，所以直接写nginx的vip+nginx负载配置的port
MySQL【高可用篇】03：MySQL8.0.25InnoDB Cluster【MGR】集群搭建部署
做一个有趣的人Zz: 数据库安装包是下载ubuntu版本的安装包吗
MySQL【高可用篇】03：MySQL8.0.25InnoDB Cluster【MGR】集群搭建部署
ATpeng: 唯一的区别就是我用的Ubuntu22.04 ，配置完到数据库重启的那一步，起不来。[code=plain] Jul 31 17:32:21 mysql03 systemd[1]: mysql.server.service: Found left-over process 3890725 (mysqld_safe) in control group while starting unit. Ignoring. Jul 31 17:32:21 mysql03 systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies. Jul 31 17:32:21 mysql03 systemd[1]: mysql.server.service: Found left-over process 3891985 (mysqld) in control group while starting unit. Ignoring. Jul 31 17:32:21 mysql03 systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies. Jul 31 17:32:21 mysql03 systemd[1]: Starting LSB: start and stop MySQL... [/code]
MySQL【高可用篇】03：MySQL8.0.25InnoDB Cluster【MGR】集群搭建部署
ATpeng: 唯一的差别就是我用的Ubuntu22.04，在配置完所有的参数后，重启的那一步，重启失败。[code=plain] ░░ The unit mysql.server.service completed and consumed the indicated resources. Jul 31 17:32:21 mysql03 systemd[1]: mysql.server.service: Found left-over process 3890725 (mysqld_safe) in control group while starting unit. Ignoring. Jul 31 17:32:21 mysql03 systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies. Jul 31 17:32:21 mysql03 systemd[1]: mysql.server.service: Found left-over process 3891985 (mysqld) in control group while starting unit. Ignoring. Jul 31 17:32:21 mysql03 systemd[1]: This usually indicates unclean termination of a previous run, or service implementation deficiencies. Jul 31 17:32:21 mysql03 systemd[1]: Starting LSB: start and stop MySQL... ░░ Subject: A start job for unit mysql.server.service has begun execution ░░ Defined-By: systemd ░░ Support: http://www.ubuntu.com/support ░░ ░░ A start job for unit mysql.server.service has begun execut [/code]
Zabbix【安装篇】03：CentOS 9 操作系统【手动】安装部署Zabbix 7.0
网安小陈（小白）: 大佬请问一下，前面的完全跟你一样，就最后一步替换字体有问题，替换之后全部字都看不见了，在转圈，可能是啥原因啊

大家在看

最新文章

2025

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

做一个有趣的人Zz 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。