大数据基础三：spark常用算子

Phyllis2016

已于 2023-04-13 21:17:10 修改

阅读量862

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据数据处理文章标签：大数据

于 2022-06-30 23:42:27 首次发布

本文链接：https://blog.youkuaiyun.com/Phyllis2016/article/details/125512119

一、python

更多用法参考：

pyspark中的数据转换_Fesgrome的博客-优快云博客

常用库：

import pyspark.sql.functions as F

from pyspark.sql.functions import row_number, rank, col,explode,percentile_approx

PS:row_number() 相同score不并列排名

rank() 相同score并列排名

1、新增列&修改列：

data.withColumn("new_col_name",运算) = data.select('*',运算.alias('new_col_name'))

data.withColumn("new_col_name",F.lit("默认值"))

data.withColumnRenamed("old_col_name","new_col_name")

data.selectExpr("old_col_name as new_col_name")

2、排序

data.orderBy(cols,ascending=False)

data.orderBy(F.desc('dt')) #逆序

data.orderBy(('dt')) # 正序或者 data.orderBy((F.asc('dt')))

data.orderBy(F.col('dt').desc()) # 逆序

data.orderBy(F.col('dt')) 或者 data.orderBy(F.col('dt').asc()) # 正序

多个字段倒序正序

data.orderBy(['count','column4'],ascending=[0,1])

3、开窗函数【groupBy/groupby一样】

1）根据某个字段排序

data.withColumn("rank_score", F.row_number().over(Window.orderBy(F.desc("score")))) \
.where("rank_score<={0}".format(target_quantity))

2）count()后排序

# data.groupBy("sku_id").count()

#=data.groupBy("sku_id").agg(F.count('sku_id'))
#= select sku_id,count(1) as count from xx group by sku_id

data.groupB

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Phyllis2016

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【Spark系列5】Dataframe下常用算子API

qq_33592535的博客

01-30

889

udf(): 定义一个新的用户定义函数。

Spark常用RDD算子：transformation转换算子以及action触发算子

m0_70882914的博客

10-10

1914

transformation 转换算子对RDD数据进行转化得到新的RDD，定义了一个线程任务。常见：map、filter、flatMap、reduceByKey、groupByKey、sortByKeyaction 执行算子触发计算任务，让计算任务进行执行，得到结果。触发线程执行的。常见：foreach、first、count、reduce、saveAsTextFile、collect、take。

参与评论您还未登录，请先登录后发表或查看评论

Spark SQL 算子详解

zholeiv5

11-05

1169

1、.show() show(numRows: Int) -- 显示numRows条 show(truncate: Boolean) -- 是否最多只显示20个字符，默认为true show(numRows: Int, truncate: Boolean) --综合前面的显示记录条数，以及对过长字符串的显示格式 2、first, head, take, takeAsList：获取若干行记录这里列出的四个方法比较类似，其中　　（1）first获取第一行记录　　（2）head获取第

SQL数据库-＞SQL语法

最新发布

2401_83430690的博客

05-06

815

目录。

Spark SQL和Hive中的函数（五）：SparkSQL函数算子

智海观潮的博客

03-30

411

本系列文章主要介绍Spark SQL/Hive中常用的函数，主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写Spark SQL代码应用时实用的函数算子五个模块。本篇文章主要介绍SparkSQL函数算子。之前介绍的函数都是可以直接在SQL中应用的。那么如果是在Spark SQL的DataFrame/DataSet的算子中调用，可以参考DataFrame/DataSet的算子以及org.apache.spark.sql.functions._下的函数：关联文章：经典的SparkSQL/

Spark算子系列文章

王文强的博客

06-29

1146

Spark算子：RDD基本转换操作(1)–map、flagMap、distinct Spark算子：RDD创建操作 Spark算子：RDD基本转换操作(2)–coalesce、repartition Spark算子：RDD基本转换操作(3)–randomSplit、glom Spark算子：RDD基本转换操作(4)–union、intersection、subtract

Spark算子

qq_41559118的博客

02-06

978

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤 1.引入库代码

大数据学习(二十一)spark高级算子

01-20

这次主要分享一下spark RDD的常用的算子。然后利用这些算子进行一些实战的操作。高级算子 mapPartitionsWithIndex 源码： def mapPartitionsWithIndex[U: ClassTag]( f:(Int, Iterator[T]) => Iterator[U], 第一...

Spark的算子

xieyichun_的博客

10-31

1886

分享了spark中的算子

Spark常用算子的实现原理

fanghailiang2016的博客

04-04

1008

💐💐扫码关注公众号，回复关键字下载geekbang 原价 90 元零基础入门 Spark 学习资料💐💐。

spark sql 算子

a724952091的博客

11-21

552

left semi join 左表为准，在右表中查找匹配的数据，如果查找成功则仅返回左边的记录，否则返回null left anti join left anti join与left semi join相反，是以左表为准，在右表中查找匹配的记录，如果查找成功，则返回null，否则仅返回左边的记录，其基本实现流程如下图所示。 pivot 列转行 userid subject score 1 a 3 2 b 4 3 c 5 1 a 6 dataSet.groupB

RDD、DataFrame与DataSet|Spark常用算子

ThreeAspects的博客

12-12

1043

DataFrame是spark1.3.0版本提出来的，spark1.6.0版本又引入了DateSet的。DataFrame、DataSet是基于RDD的，三者之间可以通过简单的API调用进行无缝切换。 RDD、DataFrame与DataSet区别 RDD RDD一般和spark mlib同时使用 RDD不支持sparksql操作 DataFrame 在Spark中，DataFrame...

spark两个节点2.2GB数据的orderby算子测试（上）

weixin_39216439的博客

05-06

1007

我们的任务就是分析orderby算子的流程，并用数据验证，最终总结优化方法。 spark的orderby算法，有点像桶排序，有三个阶段： 1. 抽样确定bound（水塘抽样算法，随机从n个元素中选择k个，但抽样过程中无法知道n） 2. 根据bound进行shuffle write 3. shuffle read 并在内存中排序 2.2GB数据集共5百万条记录保存在master...

Spark入门(六)——最全的Saprk SQL算子介绍与使用(上)

热门推荐

17611119847

06-01

2万+

Spark DataSet、DataFrame使用 Spark SQL使用方法

Spark RDD count, sample, colease, distinct, order by 等算子实现原理解析

u012361112的博客

09-24

2238

前言我们在编写 spark 代码来处理数据时，大多数的工作都是调用 spark api 对数据做转换，然后收集最终结果。这些 api 函数便被称之为算子(operation)。一、RDD 算子概览 Spark rdd 算子可以分为以下 3 类：非 shuffle 类 transform 算子，以 map，filter，flatmap 算子为代表，这类算子的特点是不会触发 rdd 计算过程，只是将一个 rdd 转换成另一个 rdd，前后两个 rdd 之间是窄依赖关系（Narrow Depende

spark两个节点2.2GB数据的orderby算子测试（下）

weixin_39216439的博客

08-22

309

与（上）的不同点： 1. 输入数据在两台机器上都有拷贝，读取时直接本地读取 2. 直接输出数据到本地，每台机器上输出的是自己运行的分区读取数据时slave5仍然只读了4个分区，等会可以看出原因，读取数据时的tasks如下：这就导致了这次的jobs，stages，tasks的分配和上次比可以说是一样，再上一张shuffle read的总览图：下面是ga...

SparkSQL创建RDD：Window算子【文字说明+关键代码】

wyqwilliam的博客

08-05

634

package com.bjsxt.sparkstreaming; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.function.FlatMapFunction; import org.apache.spark.api.java.function.Fu...

使用spark sql算子练习mysql经典50道题

我玩的很开心的博客

08-29

2125

使用spark算子练习mysql经典50道题一、mysql经典50道题一、mysql经典50道题学生表 Student student_id student_name birth sex 1 赵雷 1990-01-01 男 2 钱电 1990-12-21 男 3 孙风 1990-05-20 男 4 李云 1990-08-06 男 5 周梅 1991-12-01 女 6 吴兰 1992-03-01 女 7 郑竹 1989-07-01 女 8 王菊 1990-01