spark dataframe笔记 -- dataframe行转列

小时不识月123

已于 2024-12-12 18:25:16 修改

阅读量6.1k

点赞数

分类专栏： pyspark 文章标签： spark 笔记大数据

于 2018-09-25 14:10:58 首次发布

本文链接：https://blog.youkuaiyun.com/leitouguan8655/article/details/82838710

版权

pyspark 专栏收录该内容

10 篇文章

订阅专栏

本文介绍如何使用Apache Spark将DataFrame中的一行数据拆分为多行，通过具体示例展示了如何利用explode和split函数实现这一操作，对于处理大量文本数据集尤其有用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

把dataframe一行内容变成多行。
脚本：

#!/usr/bin/python
# -*- coding: utf-8 -*-
"""
@author:
@contact:
@time:
"""
from __future__ import print_function
from pyspark.sql import SparkSession
import os, time
from pyspark.sql import Row
from pyspark.sql.functions import split, explode

if __name__ == "__main__":
	os.environ['SPARK_HOME'] = "E:/data_page/spark-2.0.2-bin-hadoop2.7"
	spark = SparkSession.builder.appName("test").master("local[2]").getOrCreate()
	datas = ["hi I love you", "hello ni hao", "ni hao"]
	sc = spark.sparkContext
	rdd = sc.parallelize(datas)
	df=rdd.map(lambda x: Row(text=x)).toDF()
	df.show()
	Df_split = df.withColumn('textNew', explode(split('text', ' '))).where('text != ""')
	Df_split.show()
	time.sleep(1)
	spark.stop()

结果如下：

+-------------+
|         text|
+-------------+
|hi I love you|
| hello ni hao|
|       ni hao|
+-------------+

+-------------+-------+
|         text|textNew|
+-------------+-------+
|hi I love you|     hi|
|hi I love you|      I|
|hi I love you|   love|
|hi I love you|    you|
| hello ni hao|  hello|
| hello ni hao|     ni|
| hello ni hao|    hao|
|       ni hao|     ni|
|       ni hao|    hao|
+-------------+-------+