关于SparkSQL那些事(二)----sparksql基础语法(上)

最新推荐文章于 2025-11-05 12:17:19 发布

原创最新推荐文章于 2025-11-05 12:17:19 发布 · 690 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

本文详细介绍了如何使用 SparkSQL 进行数据查询操作，包括基础查询、带条件查询、排序查询、分组查询、连接查询等多种查询方式，并展示了如何处理结构化数据。

前言

在上一篇博客中，重点介绍了sparkSQL的由来，以及sparkSQL读取不同的数据源进行数据。我们知道，sparkSQL通过获取数据源中的数据形成SchemaRDD。在这篇博客中，我们就通过相应的查询命令读取数据。

通过方法查询

创建一个DataFrame对象，进行具体演示:

1）基础查询:

>tab1.select("id","name").show();---->select参数列表中的参数为列名

具体效果为:

2）带条件的查询

查询id为3的信息

注意:这里在进行相等比较时，必须用三个"="号，其中select函数中的"*"表示显示所有的列。

3)排序查询

orderBy/sort($"列名")升序排序

orderBy/sort($"列名".desc)降序排序

orderBy/sort($"列1",$"列2".desc)按两列排序

举个例子:

按照id进行升序排序，按照age进行降序排序

4）分组查询

groupBy("列名",。。。。).max(列名)求最大值

groupBy("列名",。。。。).min(列名)求最小值

groupBy("列名",。。。。).avg(列名)求平均值

groupBy("列名",.。。。。).sum(列名)求和

groupBy("列名",。。。。).count()求个数

groupBy("列名",。。。。).agg可以将多个方法进行聚合使用

在这里创建新的DataFrame进行演示。

5) 连接查询

创建新的DataFrame对象进行演示。

>dept.join(emp,$"deptid"===$"did").show---->内连接

>dept.join(emp,$"deptid"===$"did").show--->左外连接

左向外联接的结果集包括 LEFT OUTER子句中指定的左表的所有行，而不仅仅是联接列所匹配的行。如果左表的某行在右表中没有匹配行，则在相关联的结果集行中右表的所有选择列表列均为空值。

>dept.join(emp,$"deptid"===$"did","right")----->右外连接

6)执行运算

7)使用列表

8）使用结构体

{"name":"陈晨","address":{"city":"西安","street":"南二环甲字1号"}}

{"name":"娜娜","address":{"city":"西安","street":"南二环甲字2号"}}

>import org.apache.spark.sql.SQLContext

>val ssc=new SqlContext(sc)

>val df=ssc.read.json("/home/software/users.json")

>val result=df.select("name","address.street").show

9）其他

df.count//获取记录总数

val row=df.first()//获取第一条记录

val value=row.getString(1)//获取当前行的第一列的数据

df.collect//获取当前df对象中的所有数据为一个Array 其实就是调用了df对象对应的底层的rdd的collect方法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

VogtZhao 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。