每次写spark分组统计词频总要先到网上抄代码[捂脸],索性在这里做个总结和记录,也为需要的小伙伴提供参考
wordcount在分布式当中的地位,大概跟初学编程语言时的hello world差不多。Pyspark基础 wordcount.py在此不再赘述了,有需要请参考:WordCount入门
问题
已知一个dataframe,想按照某字段/某列(column)分组后,再对各分组中某String类型的字段统计词频,这里默认已经分好词,直接split即可。
那么,与入门wordcount唯一的区别也就找到了,我们需要对GroupedData进行map-reduce词频统计,而最终的结果也不再是<word, count>Pair对,而是<(group_field, word), count>Pair对,至于后续是否需要分组排序,则可以再灵活操作了,我们这里只考虑统计词频这一步。
Talk is cheap。直接上代码了
写法1
## 首先我们先简单创建个df
group_names = [1,1,1,2,2,2]
texts = [
'python is best',
'spark is best',
'dataframe is best',

最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



