Spark DataFrame SQL操作

最新推荐文章于 2024-07-31 15:54:40 发布

飞Link

最新推荐文章于 2024-07-31 15:54:40 发布

阅读量1.3k

点赞数

文章标签： spark 大数据数据仓库

本文链接：https://blog.youkuaiyun.com/feizuiku0116/article/details/121526975

版权

本文介绍了如何在PySpark中将DataFrame视为关系表，并通过createTempView和createGlobalTempView注册表进行SQL查询。重点讲解了使用SQL查询DataFrame的方法和pyspark.sql.functions包的功能应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、注册DataFrame成为表

DataFrame的一个强大之处就是我们可以将它看作是一个关系型数据表，然后可以通过在程序中使用spark.sql()来执行SQL语句查询，结果返回一个DataFrame

如果想要使用SQL风格的语法，需要将DataFrame注册成表，采用如下的方式：

df.createTempView("score")			# 注册一个临时视图(表)
df.createOrReplaceTempView("score")	# 注册一个临时表，如果存在进行替换
df.createGlobalTempView("score")	# 注册一个全局表

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

飞Link

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark SQL | DataFrame的各种玩法

weixin_43646592的博客

06-28

959

Spark SQL | DataFrame的各种玩法

DataFrame的操作-使用SQL

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

07-02

1929

大数据实验教学系统DataFrame的操作-使用SQL在SparkSQL对SQL语句的处理和关系型数据库采用了类似的方法，SparkSQL会先将SQL语句进行解析Parse形成一个Tree，然后使用Rule对Tree进行绑定、优化等处理过程，通过模式匹配对不同类型的节点采用不同的操作。而SparkSQL的查询优化器是Catalyst，它负责处理查询语句的解析、绑定、优化和生成物理计划等过程，Catalyst是SparkSQL最核心的部分，其性能优劣将决定整体的性能。掌握Spark SQL临时视图的创建。

参与评论您还未登录，请先登录后发表或查看评论

Spark SQL使用说明与DataFrame创建

wang_wbq的博客

03-22

1821

Spark SQL使用说明与DataFrame创建版权声明：本文为博主原创文章，未经博主允许不得转载。手动码字不易，请大家尊重劳动成果，谢谢作者：http://blog.youkuaiyun.com/wang_wbq 启动spark-shell 由于spark-shell演示具有显而易见的有点，因此本文主要基于spark-shell对Spark SQL的使用进行介绍...

Spark SQL中的DataFrame

qq_45973211的博客

08-29

1817

Dataframe，分布式的大表，一个分布式数据容器；包含列的schema（名称，属性）

sparkSQL——DataFrame

m0_55674689的博客

12-23

1080

sparkSQL

【大数据分析】Spark SQL查询：DataFrame

sword_csdn的博客

06-16

920

RDD代表了一种低级，直接的方式来处理Spark中的数据，它是Spark运行时的核心，而DataFrame API用于类似于表的形式处理结构化的分布式数据。DataFrame的灵感来自几种语言：Python的Pandas包中的DataFrame，R中的DataFrame和Julia语言的DataFrame。Spark的不同之处在于它们的分布式特性和Spark的Catalyst，它可以基于可插拔数据源、规则和数据类型实时优化资源使用。

2024.1.7 Spark SQL , DataFrame

白白的wj的博客

01-07

1180

Spark SQL只能处理结构化数据 ,属于Spark框架一个部分Schema:元数据信息特点: 融合性 ,统一数据访问,hive兼容 , 标准化连接将hive sql翻译成Spark上对应的RDD操作 ,底层运行SparkRDDDataFrames是在RDD上面增加与省略了一些东西DataFrame = RDD -泛型 +Schema +方便到的SQL操作 + 优化 ,是个特殊的RDDRDD存储任意结构数据;DataFrame存储二维表结构数据。

Spark SQL DataFrame 算子

2401_84052244的博客

07-31

3339

DataFrame 算子与 SQL 查询语句之间，并没有优劣之分，他们可以实现同样的数据应用，而且在执行性能方面也是一致的。因此，你可以结合你的开发习惯与偏好，自由地在两者之间进行取舍。DataFrame 本身支持的算子之外，在功能上，SQL 完全可以实现同样的数据分析。给定 DataFrame，你只需通过 createTempView 或是 createGlobalTempView 来创建临时表，然后就可以通过写 SQL 语句去进行数据的探索、倾斜、转换与分析。

Spark DataFrame

03-07

描述中提到的“SQL操作接口”表明Spark DataFrame支持SQL查询语言，允许用户在DataFrame上使用类似SQL的声明式查询语法。Spark SQL是Spark DataFrame模块中负责执行SQL语句的部分，用户可以通过SQL接口查询数据或者...

摸鱼大数据——Spark SQL——DataFrame详解一

weixin_65694308的博客

07-07

1339

DataFrame表示的是一个二维的表。二维表，必然存在行、列等表结构描述信息表结构描述信息(元数据Schema): StructType对象字段: StructField对象，可以描述字段名称、字段数据类型、是否可以为空行: Row对象列: Column对象，包含字段名称和字段值在一个StructType对象下，由多个StructField组成，构建成一个完整的元数据信息。

Spark（15）：SparkSQL之DataFrame

yang_shibiao的博客

07-06

1003

这里的 spark 不是 Scala 中的包名，而是创建的 sparkSession 对象的变量名称，所以必须先创建 SparkSession 对象再导入。这里的 spark 对象不能使用 var 声明，因为 Scala 只支持val 修饰的对象的引入。如果是数字，默认作为 Int 处理；但是从文件中读取的数字，不能确定是什么类型，所以用 bigint 接收，可以和Long 类型转换，但是和 Int 不能进行转换。注意：普通临时表是 Session 范围内的，如果想应用范围内有效，可以使用全局临时表。

SparkSQL（3）——Spark SQL DataFrame操作

Fenggms的博客

09-30

884

读取数据源创建DataFrame 在spark2.0之后，SparkSession 封装了 SparkContext，SqlContext，通过SparkSession可以获取到SparkConetxt,SqlContext对象。读取文本文件创建DataFrame （1）在本地创建一个文件，有三列，分别是id、name、age，用空格分隔，然后上传到hdfs上。 vim person.txt 1...

SparkSQL【概述，DataFrame核心编程】

weixin_43923463的博客

09-03

486

Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。

用写sql的思路写dataframe：把sql语法转化成dataframe语法

Neon Light 的博客

01-03

1688

查询表 a_table如下： class name project score 一班张三语文 80 一班张三数学 90 二班李四语文 80 二班李四数学 90 查询筛选 select name,score from a_table where class='一班' and project='语文' a_table = pd.DataFrame(.........

使用SQL来操作DataFrame?我们给pandas找了个新搭子

量化风云

01-29

1719

使用sql来操作DataFrame,这是一个令人感兴趣的话题

SparkSQL——DataFrame

m0_56181660的博客

01-17

1136

SparkSQL——DataFrame

dataframe及sql

朱—光—瑞的博客

05-14

1783

sparksql 运行架构：SparkSQL语句的顺序为：1. 对读入的SQL语句进行解析（Parse），分辨出SQL语句的关键词（如SELECT、FROM、WHERE 并判断SQL语句的合法性；2. 将SQL语句和数据库的数据字典进行绑定（Bind）如果相关的Projection、Data Source等都是存在的话，就表示这个SQL语句是可以执行的；3. 数据库会在这计划中选择一个最优计划（O...

Spark SQL编程之DataFrame

hu10131013的博客

04-24

2428

Spark SQL 特性易整合统一的数据访问方式兼容hive 标准的数据链接 Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用 SparkSession创建在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveContext，用于连接Hive的查询。 SparkSession是Spark...

SparkSQL学习——RDD&DataFrame&DataSet

雷神乐乐的博客

04-03

1590

SparkSQL学习——RDD&DataFrame&DataSet

spark sql和spark dataframe

最新发布

01-14

### Spark SQL与Spark DataFrame的区别在Apache Spark生态系统中，Spark SQL和DataFrame提供了处理结构化数据的能力。然而两者之间存在一些显著差异。 - **定义** - Spark SQL是一个用于处理结构化数据的模块，允许通过SQL查询来操作数据集[^1]。 - DataFrame是一种分布式的数据结构，提供类似于关系数据库表的功能，支持优化执行计划并能自动推断模式(schema)。 - **API风格** - 使用Spark SQL时，开发者可以编写标准SQL语句来进行数据分析；而使用DataFrame API，则更多依赖于编程方式完成相同任务。 ```sql -- Spark SQL Example SELECT * FROM table_name WHERE column='value'; ``` ```scala // Spark DataFrame API Example (Scala) val df = spark.read.json("examples/src/main/resources/people.json") df.show() ``` ### 联系尽管二者看起来不同，但实际上它们紧密相连： - 数据Frame可以通过注册成临时视图(temporary view)，使得能够利用Spark SQL对其进行查询。 ```scala df.createOrReplaceTempView("people") spark.sql("SELECT * FROM people").show() ``` - 反过来讲，在执行任何类型的SQL命令之后也可以返回一个DataFrame对象以便进一步加工处理。 ### 使用场景对于具体的应用场合而言， - 如果应用程序主要由熟悉传统RDBMS系统的人员开发维护，并且倾向于采用声明式的SQL语法表达业务逻辑的话，那么选择Spark SQL会更加合适。 - 当面对复杂ETL流程或是需要频繁调用函数库的情况时，借助灵活强大的DataFrame API往往更能发挥优势。 ### 最佳实践为了最大化性能以及简化代码实现， - 对于简单的聚合运算或者过滤条件较少的操作建议优先考虑使用内置方法而不是自定义UDF(user-defined function),因为前者更容易被Catalyst Optimizer识别从而获得更好的运行效率。 - 尽量减少宽依赖(broad cast join)的数量以降低shuffle带来的开销;如果确实不可避免则应确保参与join的小表已经被缓存到内存当中。