python+spark 如何将一行数据转成多行

最新推荐文章于 2025-06-06 20:55:37 发布

weixin_43105111

最新推荐文章于 2025-06-06 20:55:37 发布

阅读量1.5k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/weixin_43105111/article/details/102745690

大数据专栏收录该内容

2 篇文章

订阅专栏

本文介绍使用Python与Spark将数据集中的一行数据转换为多行的方法，适用于需要将逗号分隔的值拆分为独立行的场景。通过自定义函数split_func和flatMap操作，实现从原始数据格式到目标格式的转换。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

python+spark 如何将一行数据转成多行，困惑了好久，测试了好多次都没有成功,Mark一下：
原数据格式大致如下：
1B36F016DC7 a,b,c,d
1B676E0B753 e,f

希望转成：
1B36F016DC7 a
1B36F016DC7 b
1B36F016DC7 c
1B36F016DC7 d
1B676E0B753 e
1B676E0B753 f

代码如下：

rdd= sc.textFile(infile,1,use_unicode=False)
def split_func(line):
keyvalues=[]
key,values=line.split("\t")
for x in values.split(","):
keyvalues.append((key,x))
#这里返回keyvalues,或迭回迭代器 iter(keyvalues) 都可以
return keyvalues
#map作用于每一个元素(textFile读入的为一行一个元素，不是每个字符)
#这里得到的格式为：[ [ ] , [ ] , [ ] ]
filterNotagsRdd=originalDataRdd.map(split_func)
#flatmap,将[]或迭代器返回的tuple(key,value)元组打平
#得到[ (),(),() …] 多个tuple组成的一个list
#这里得到的格式为：[ (),(),() … ] 原来子[ ]的tuple解析出来放外层了
filterNotagsRdd=filterNotagsRdd.flatMap(lambda x:x)
#上面flatMap后y人为只有一行数据，为一个 [],里面的tuple元组,
#map恰恰是作用于每个元素的,这里一个tuple为一个元素了.
#所以输出key value的数据,这里就转成多行数据了。
#下面的lambda等于
def createKeyValue_func(tupleValue):
x,y=tupleValue
return x+"\t"+y
filterNotagsRdd=filterNotagsRdd.map(lambda (x,y): x+"\t"+y)
print(filterNotagsRdd.collect())
#filterNotagsRdd.saveAsTextFile(out) #或存入hdfs文件查看