Spark中SQL与DSL编程风格的使用(附花式查询与单词记数案例)

这篇博客介绍了Spark中DataFrame的DSL和SQL编程风格,包括选择、过滤、分组、聚合等常用操作,并通过案例展示了如何进行花式查询和单词计数。读者可以学习到如何利用Spark进行高效的数据处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Spark 中 DataFrame 的常用操作:

1、DSL风格:

简单来说就是 DataFrame 对象调用 API,这些 API 有的和 RDD 同名,有的和 SQL 关键词同名。

调用 DataFrame 中 API 进行数据分析,DataFrame 中涵盖很多函数,大致分类如下:
1、选择函数 select:选取某些列的值
2、过滤函数 filter / where:设置过滤条件,类似 SQL 中 WHERE 语句
3、分组函数 groupBy / rollup  /cube:对某些字段分组,在进行聚合统计
4、聚合函数 agg:通常与分组函数连用,使用一些 count、max、sum 等聚合函数操作
5、排序函数 sort / orderBy:按照某写列的值进行排序(升序 ASC 或者降序 DESC)
6、限制函数 limit:获取前几条数据,类似 RDD 中 take 函数
7、重命名函数 withColumnRenamed:将某列的名称重新命名
8、删除函数 drop:删除某些列
9、增加列函数 withColumn:当某列存在时替换值,不存在时添加此列
上述函数在实际项目中经常使用,尤其数据分析处理的时候,其中要注意,调用函数时,通常指定某个列名称,传递 Column 对象,通过隐式转换转换字符串 String 类型为 Column 对象。

2、SQL风格:

两个步骤:

  • 将 DataFrame 注册成一个
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

竹长大大

客官,赏个银子吧,别下次一定了

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值