[pyspark入门]Dataframe groupby分组后统计词频WordCount的几种写法

最新推荐文章于 2023-06-23 08:35:07 发布

原创

最新推荐文章于 2023-06-23 08:35:07 发布 · 2.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#spark #python #pyspark

每次写spark分组统计词频总要先到网上抄代码[捂脸]，索性在这里做个总结和记录，也为需要的小伙伴提供参考

wordcount在分布式当中的地位，大概跟初学编程语言时的hello world差不多。Pyspark基础 wordcount.py在此不再赘述了，有需要请参考：WordCount入门

问题

已知一个dataframe，想按照某字段/某列(column)分组后，再对各分组中某String类型的字段统计词频，这里默认已经分好词，直接split即可。

那么，与入门wordcount唯一的区别也就找到了，我们需要对GroupedData进行map-reduce词频统计，而最终的结果也不再是<word, count>Pair对，而是<(group_field, word), count>Pair对，至于后续是否需要分组排序，则可以再灵活操作了，我们这里只考虑统计词频这一步。

Talk is cheap。直接上代码了

写法1

## 首先我们先简单创建个df
group_names = [1,1,1,2,2,2]
texts = [
    'python is best',
    'spark is best',
    'dataframe is best',

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

冰糖少女

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

pyspark的DataFrame的groupBy方法实践

愿你远行千里，归来仍是少年

09-02

1万+

csv内容： # python3 # -*- coding:utf-8 -*- # @Time: 9/2/19 12:03 PM # @Author: Damon # @Software: PyCharm from __future__ import print_function from pyspark import SparkConf,SparkContext from pys...

Scala综合案例：词频统计

weixin_45437533的博客

02-05

1687

Scala综合案例：词频统计

参与评论您还未登录，请先登录后发表或查看评论

dataframe groupby_PySpark DataFrame方法：join（）和groupBy（）

weixin_39987926的博客

11-30

744

最初于2019年6月24日发布在https://hackersandslackers.com。在PySpark DataFrame上执行类似SQL的联接和聚合。我们一起经历了一段探索PySpark神奇世界的旅程。在介绍了DataFrame转换，结构化流和RDD之后，在我们进行深入研究之前，剩下的事情还不多。为了总结本系列的内容，我们将回顾一下我们错过的一些强大的DataFrame操作。特别是，...

文本分析-使用Python做词频统计分析

热门推荐

m0_64336780的博客

06-23

3万+

前面我们已经介绍了文本分析中的中文分词和去除停用词，这篇文章将详细介绍分词后如何进行词频统计分析。

PySpark SQL——SQL和pd.DataFrame的结合体

简说Python的博客

09-14

398

作者｜luanhz来源｜小数志导读之前推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL...

DataFrame WordCount

weixin_30472035的博客

12-09

321

测试数据： 1 2 3 4 5 6 3 4 5 6 7 10 10 1 2 3 4 5 9 8 7 6 5 4 ** * 使用DataFrame实现WordCount */ object DataFrameWordCount { def main(args: Array[String]): Unit = { val spark = Spark...

Spark指南——第三章：SparkSQL编程—— DataFrame（2）

lightupworld的博客

09-04

554

SparkSQL编程（1）一、SparkSession二、DataFrame1.创建DataFrame①通过数据源创建DataFrame②从RDD转换创建DataFrame1.方式一：Case Class方式2.方式二：createDataFrame方式③从Hive Table查询创建2.使用SQL风格编程① 对DataFrame创建一个临时表② 对创建的people表进行SQL查询3.使用DSL(Domain Specific Language)风格编程① 查看Schema② 指定列查询③ 限制条件查询④

Spark入门( 八)——Spark流计算新玩法-Structured Streaming

17611119847

06-15

2万+

Structured Streaming介绍与使用

Spark3.x入门到精通-阶段五(SparkStreaming详解原理&java&scala双语实战)

S1124654的博客

07-09

1168

Spark3.x入门到精通-阶段五(SparkStreaming详解原理&java&scala双语实战)

pyspark:dataframe使用pandas_udf做groupby

dishui89的博客

04-23

728

数据介绍：供应商发布课程表，供应商发布了很多课程，发布的每个课程都有发布时间，在数据库中是timestamp类型，数据表中表项为org_id, course_id, publish_date,现要获取供应商发布课程的最新时间作为该供应商的最新活跃时间。数据介绍：一张企业表，企业下有很多职位，不同的企业可能有相同的职位，基于每个企业下的每个职位，统计了该职位某个热搜词被检索的次数，现需要根据职位类别统计各个热搜词被检索的总次数。思路：单个主播的所有的直播课的分数全部加起来，除以所有直播课的共同的评分人数。

文本分类之词频统计（分词、词干提取、去停用词、计算词频，有界面）

12-19

主要是读取文本，然后进行分词、词干提取、去停用词、计算词频，有界面，很实用亲测可用，谢谢支持。

pyspark的dataframe的单条件、多条件groupBy用法agg

weixin_42864239的博客

07-02

2万+

pyspark groupBy方法中用到的知识点智能搜索引擎实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum 智能搜索引擎实战中用到的pyspark知识点总结项目中，先配置了spark，通过spark对象连...

PySpark︱DataFrame操作指南：增/删/改/查/合并/统计与数据处理

cjmn1168的博客

09-10

415

笔者最近需要使用pyspark进行数据整理，于是乎给自己整理一份使用指南。pyspark.dataframe跟pandas的差别还是挺大的。文章目录 1、-------- 查 -------- --- 1.1 行元素查询操作 --- **像SQL那样打印列表前20元素** **以树的形式打印概要** **获取头几行到本地：** **查询总行数：** 取别名 **查询某列为null的行：** **输出list类.

在Pyspark dataframe中按groupby后的计数、求和进行过滤

dishui89的博客

04-24

2046

是函数的别名，您可以使用任何需要的标识符，但它通常写为。按这个dataframe的名称列分组。有一个像这样的pyspark。

对datafrmae某一列进行分词，并对分词后的所有字符串进行统计

longwei92的博客

03-31

6858

import pandas as pd import jieba def cut_word(word): cw = jieba.cut(word) return list(cw) df['cut_word'] = df['word'].apply(cut_word) pd.Series(df['cut_word'].sum()).value_counts()

python文本分析与挖掘（三）-词频统计

数据杂坛

06-08

987

python文本分析与挖掘（三）-词频统计（完整代码+实现效果）

pyspark入门--DataFrame基础

m0_60707623的博客

05-27

775

2-type/head/select/withColumn/withColumnRenamed/使用sql语句。

spark分组统计及二次排序案例一枚

weixin_33734785的博客

05-24

275

组织数据形式： aa 11 bb 11 cc 34 aa 22 bb 67 cc 29 aa 36 bb 33 cc 30 aa 42 bb 44 cc 49 需求： 1、对上述数据按key值进行分组 2、对分组后的值进行排序 3、截取分组后值得top 3位以key-value形式返回结果答案如下： val groupTopNRdd = sc.textFile...

pyspark groupBy代码示例

学亮编程手记

11-06

448

pyspark dataframe groupby