RDD操作之combineByKey

最新推荐文章于 2024-11-18 10:40:04 发布

G_scsd

最新推荐文章于 2024-11-18 10:40:04 发布

阅读量651

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark python 文章标签： combineByKey

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Gscsd_T/article/details/79840131

python 同时被 2 个专栏收录

67 篇文章

订阅专栏

7 篇文章

订阅专栏

本文详细介绍了Spark中combineByKey函数的工作原理及其应用场景。该函数通过三个步骤处理数据：首先使用createCombiner为每个键创建初始组合器；接着利用mergeValue在每个分区内部合并值；最后运用mergeCombiners跨分区合并组合器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

combineByKey

combineByKey 接收三个参数，分别为createCombiner、mergeValue、mergeCombiners

createCombiner：用于产生累加器键的初值。如lambda x:(x,1)，实现输入RDD[(K,V)]中V到结果RDD[(K,C)]中C的转换，V 和C可以相同，也可能不同

mergeValue: 每移动一条记录设置当前的累加的值（将V合并到C中）

mergeCombiners：在每一键组内累加相应值

我来给大家看下列子：

我转换了一个文件，在这里没有写出来，但看到我使用map拆分后看到了out[25]里面的数，这就是我们的文件数据，然后再来看到In [26]里面的代码，combineByKey里面的参数我都换成了函数，

运行步骤和规则：

第一步：

fun1()

这是根据值(V)来进行算的，也和分区有关

这里会得到一个序列[('f',(78,1)),('m',(90,1))]，这个序列是虚拟的，其实真正的结果是[(75.1),(90,1)],只不过计算机会计算相同的键对应的每个值

第二步：

fun2()

如果当K已经遇到过，使用mergeValue()会将当前的（K,V）进行合并，并进一步生成累加列表

x[0] 表示RDD列表中的值，一个个取出，和y相加，y在这里相当于sum，列y=y+x[0]

x[1]+1是代表加了几次，我们的结果中也显示出来了，这个和分区有关，但我们这里不考虑分区，

这里就会得出[('f',(515,6)),('m',(400,5))] (假设就一个分区)

第三步;

fun3()

把每个分区的结果进一步求和，最终得到我们的结果，也叫将相同的累加值进行合并。

因为会有多个分区，每个分区都有对应同一个键的累加值，所以要把各个分区的结果进行合并。

博客等级

码龄8年

122
原创

348
点赞

1394
收藏

300
粉丝

关注

私信

热门文章

分类专栏

python 67篇
MySQL 1篇
大数据 1篇
pyspark 16篇
Mongo 1篇
ElasticSearch 1篇
docker 2篇
tornado 1篇
python学习 30篇
MySQL数据库 9篇
Django 16篇
Linux 5篇
hadoop 13篇
spark 7篇
Hive 5篇
kafka 2篇
flume 2篇
爬虫 19篇
java 1篇
学习 6篇
程序人生 1篇

展开全部收起

上一篇：: spark介绍及RDD操作

下一篇：: RDD之键值配对的连接变换

最新评论

Python连接MySQL数据库连接池
zzzy7zai: def exe_sql(self,sql,args=None,way=None,ext=None): conn,curs = self.get_conn_curs() try: if ext == 1: curs.execute(sql,args=args) elif ext == 2: curs.executemany(sql,args=args) else: return conn.commit() except Exception as e: conn.rollback() print("error >> exe_sql >> {}".format(e)) return False else: if way == 1: return curs.fetchone() elif way == 2: return curs.fetchall() else: return True finally: self.close_conn_curs(curs) 我是这样写的
PySpark 之 flatMap
菜菜的大数据开发之路: 感谢博主的分享,你真是太帅了(^ ^)／▽▽＼(^ ^)
Python连接MySQL数据库连接池
G_scsd: 应该是，具体的你可以问问ChatGPT，相信能给你更好的答案
Python连接MySQL数据库连接池
魣鮟: 大佬您的意思是不管是不是不同的连接事务都会持续的运行下去是吗
Python连接MySQL数据库连接池
G_scsd: 那有可能是你用的时候刚好连接池断掉了，你加个异常等待试试

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。