14-pyspark的DataFrame使用总结

积跬步，慕至千里

已于 2024-04-11 20:09:00 修改

阅读量1k

点赞数 26

CC 4.0 BY-SA版权

分类专栏： PySpark学习库文章标签：大数据 pyspark

于 2024-04-11 20:02:52 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_42521211/article/details/137651067

10-用PySpark建立第一个Spark RDD(PySpark实战笔记系列第一篇)
11-pyspark的RDD的变换与动作算子总结(PySpark实战笔记系列第二篇))
12-pyspark的RDD算子注意事项总结(PySpark实战笔记系列第三篇)
13-pyspark的共享变量用法总结(PySpark实战笔记系列第四篇)
14-pyspark的DataFrame使用总结(PySpark实战笔记系列第五篇)

前言

在Spark中，除了RDD这种数据容器外，另一种一种更容易操作的一个分布式数据容器DataFrame，它更像传统关系型数据库的二维表，除了包括数据自身以外，还包括数据的结构信息（Schema），可以利用类似SQL的语言来进行数据访问。

DataFrame可以从多种数据来源上进行构建，比如结构化数据文件、Hive中的表、外部数据库或现有RDD。

DataFrame使用总结

DataFrame的构建

方法1：通过列表构建

列表的元素是元组，这个数据结构可以代表一种二维数据。然后利用spark.createDataFrame()方法来构建，示例如下：

import findspark
findspark.init()
#############################################
from pyspark.sql
import SparkSession
spark = SparkSession.builder \
		            .master("local[2]") \
		            .appName("DataFrameDemo") \
				    .getOrCreate();
############################################
a = [('Jack', 32),('Smith', 33)]
df = spark.createDataFrame(a)
#[Row(_1='Jack', _2=32), Row(_1='Smith', _2=33)]
print(df.collect())
df.show()15  
# +-----+---+  
# |   _1| _2|
# +-----+---+
# | Jack| 32|
# |Smith| 33|
# +-----+---+

# 指定列名
df2 = spark.createDataFrame(