在Pyspark dataframe中按groupby后的计数、求和进行过滤

原创已于 2024-05-27 11:49:05 修改 · 2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#java #开发语言

于 2023-04-24 16:09:05 首次发布

文章展示了如何在PySpark中对dataframe进行操作，包括根据name列分组并计算每组的数量，然后使用filter函数筛选出计数小于3的记录。此外，还提到了可以对多个列进行groupby操作，并通过SQL查询获取数据，进一步筛选重复次数超过50的行，最后提取出重复的t值。

有一个像这样的pyspark

data = [("1", "a"), ("2", "a"), ("3", "b"), ("4", "a")]
df = spark.createDataFrame(data).toDF(*("id", "name"))
df.show()
+---+----+
| id|name|
+---+----+
|  1|   a|
|  2|   a|
|  3|   b|
|  4|   a|
+---+----+

按这个dataframe的名称列分组

df.groupBy("name").count().show()
+----+-----+
|name|count|
+----+-----+
|   a|    3|
|   b|    1|
+----+-----+

from pyspark.sql import functions as F

data = [("1", "a"), ("2", "a"), ("3", "b"), ("4", "a")]
df = spark.createDataFrame(data).toDF(*("id", "name"))
df.groupBy("name").count().where(F.col('count') < 3).show()

F是函数的别名，您可以使用任何需要的标识符，但它通常写为F或func，这只是个人习惯。

result:

+----+-----+
|name|count|
+----+-----+
|   b|    1|
+----+-----+

# 可以多个列名同时使用groupby
duplicates_df = sc.sql(hive_read).groupBy("t", "g").count()

# 筛选出重复次数大于50的行
duplicates_df = duplicates_df.filter(duplicates_df["count"] > 50)

# 按照 count 列进行降序排序
sorted_duplicates_df = duplicates_df.orderBy(duplicates_df["count"].desc())

# 提取所有重复的t值,即满足上述重复条件的，发生过重复情况的t值
duplicate_tids = duplicates_df.select("t","g").distinct()

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

dishui89

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

pandas使用groupby函数计算dataframe每个分组对应的数据行的个数（size of each group in dataframe, rows count of group）

data+scenario+science+insight

03-24

1858

pandas使用groupby函数计算dataframe每个分组对应的数据行的个数（size of each group in dataframe, rows count of group）

Python DataFrame数据分组统计（Pandas篇-16）

侯小啾技术博客

03-08

6024

Python Pandas DataFrame数据分组统计（第16讲）【`groupby()`&`agg()`】`groupby()` 函数是 Pandas 中用于分组数据的强大工具。它允许我们按照某一列或多个列的值对 DataFrame 进行分组，并对每个分组应用相应的函数。`agg()` 函数是 `Pandas` 中的一个灵活且功能强大的函数，用于对 `DataFrame` 或分组后的数据进行聚合操作。它允许我们一次性应用多个聚合函数或自定义函数，并返回一个包含聚合结果的新的 `DataFrame`。

参与评论您还未登录，请先登录后发表或查看评论

pyspark的DataFrame的groupBy方法实践

愿你远行千里，归来仍是少年

09-02

1万+

csv内容： # python3 # -*- coding:utf-8 -*- # @Time: 9/2/19 12:03 PM # @Author: Damon # @Software: PyCharm from __future__ import print_function from pyspark import SparkConf,SparkContext from pys...

PYSPARK中的groupby, agg，alias, orderby多个columns的操作

anxingirl的专栏

03-10

1万+

#Pyspark imports import pyspark from pyspark.sql import SQLContext from pyspark.sql.functions import hour, when, col, date_format, to_timestamp from pyspark.sql.functions import * # Define Spark Context sc = pyspark.SparkContext(appName="Homework")...

Spark DataFrame 的 groupBy vs groupByKey

zzzzMing -大数据/数据分析/数据挖掘

11-04

7932

在使用 Spark SQL 的过程中，经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外，还有一个 groupByKey（**注意RDD 也有一个 groupByKey，而这里的 groupByKey 是 DataFrame 的 **）。这个 groupByKey 引起了我的好奇，那我们就到源码里面一探究竟吧。所用 spark 版本：spark 2.1.0...

pyspark的dataframe的单条件、多条件groupBy用法agg

热门推荐

weixin_42864239的博客

07-02

2万+

pyspark groupBy方法中用到的知识点智能搜索引擎实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum 智能搜索引擎实战中用到的pyspark知识点总结项目中，先配置了spark，通过spark对象连...

如何在 Pandas 中对 dataframe 进行 groupby 并保留列?

2401_83026894的博客

10-07

775

在此示例中，sales_data.groupby（‘product’）按 ‘product’ 列对销售数据进行分组，而 agg（{‘quantity_sold’： [‘sum’， ‘mean’]}）将 sum 和 mean 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含所有原始列的新 DataFrame 和一个新列 ‘quantity_sold_sum’，其中包含每个组的 ‘quantity_sold’ 列的总和。如果要将所有原始列保留在分组的 DataFrame 中，

Pyspark 读 DataFrame 的使用与基本操作

weixin_41888257的博客

12-20

1万+

一、安装基于 mac 操作系统安装 jdk jdk 下载地址安装 pyspark pip install pyspark 二、基本操作 2.1 建立SparkSession对象一切操作之前需要先建立一个SparkSession对象(运行Spark code的Entrance point,可以理解为交互部件)：详见： pyspark.sql module from pyspark.sql import SparkSession spark = SparkSession.builder.ma

python DataFrame数据分组统计groupby()函数，值得推荐

m0_67621628的博客

03-18

2万+

4. 通过字典和 Series 对象进行分组统计 4.1通过一个字典 4.2通过一个Series 1. groupby基本用法 ===================================================================================== 1.1 一级分类_分组求和 import pandas as pd data = [[‘a’, ‘A’, 109], [‘b’, ‘B’, 112], [‘c’, ‘A’, 125], ..

pandas dataframe对象的分组机制groupby

12-20

在Python的Pandas库中，`DataFrame`对象的分组机制`groupby`是一个非常重要的功能，它允许我们在数据集上执行聚合操作，比如计算平均值、求和、计数等，按照特定的分类标准。分组操作可以分为三个主要步骤，让我们...

dataframe groupby_PySpark DataFrame方法：join（）和groupBy（）

weixin_39987926的博客

11-30

758

最初于2019年6月24日发布在https://hackersandslackers.com。在PySpark DataFrame上执行类似SQL的联接和聚合。我们一起经历了一段探索PySpark神奇世界的旅程。在介绍了DataFrame转换，结构化流和RDD之后，在我们进行深入研究之前，剩下的事情还不多。为了总结本系列的内容，我们将回顾一下我们错过的一些强大的DataFrame操作。特别是，...

PySpark SQL——SQL和pd.DataFrame的结合体

简说Python的博客

09-14

440

作者｜luanhz来源｜小数志导读之前推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL...

dataframe groupby_pandas中groupby后快速众数

weixin_39889481的博客

11-27

527

1. 问题在做数据挖掘过程中，有时需要做一些数据聚合后的统计特征，如求最大值，均值，中位数等等，这些都可以通过将主键进行groupby,然后直接使用max(),mean(),median()等方法。但是当想要求聚合后的众数（mode)，却发现出现错误，通过dir(df.groupby('a'))指令查看并没有该方法。故不能直接使用df.groupby('a').mode().reset_index...

pandas dataframe 分组统计次数

jp_666的博客

10-13

1340

要在 Pandas DataFrame 中进行分组统计次数，可以使用。方法结合聚合函数，如。

Spark DataFrame groupBy并获取其它列的聚合值

梦家の博客

07-21

2384

代码实现： object test { def main(args: Array[String]): Unit = { val session = SparkSession .builder() .appName(this.getClass.getSimpleName).master("local") .getOrCreate() val df = session.createDataFrame(Seq( ("trace1", "src1

pyspark:dataframe使用pandas_udf做groupby

dishui89的博客

04-23

742

数据介绍：供应商发布课程表，供应商发布了很多课程，发布的每个课程都有发布时间，在数据库中是timestamp类型，数据表中表项为org_id, course_id, publish_date,现要获取供应商发布课程的最新时间作为该供应商的最新活跃时间。数据介绍：一张企业表，企业下有很多职位，不同的企业可能有相同的职位，基于每个企业下的每个职位，统计了该职位某个热搜词被检索的次数，现需要根据职位类别统计各个热搜词被检索的总次数。思路：单个主播的所有的直播课的分数全部加起来，除以所有直播课的共同的评分人数。

DataFrame进行数据分组运算并筛选指定条件的group

guotianqing的博客

01-26

1万+

需求假设有个股票行情文件，内容如下，数据为虚构： code,time,open,high,low 000001.SZ,095000,2,3,2.5 000001.SZ,095300,2,3,2.5 000001.SZ,095600,2,3,2.5 000002.SZ,095000,2,3,2.5 000003.SZ,095600,2,3,2.5 000003.SZ,095900,2,3,2.5 现在要计算每支股票high和low的均值，如果某股票的行情条数不足2条，则忽略不计。实现问题不难，方法

pyspark入门--DataFrame基础

m0_60707623的博客

05-27

781

2-type/head/select/withColumn/withColumnRenamed/使用sql语句。

spark sql DataFrame 的 groupBy+agg 与 groupByKey+mapGroups

nefu_ljw的博客

01-03

2122

groupBy 对比 groupByKey；groupByKey + mapGroups / groupBy + agg

python dataframe按同类项筛选后求和