pyspark之DataFrame学习【dataFrame查询】（3）

最新推荐文章于 2025-06-18 16:05:30 发布

清萝卜头

最新推荐文章于 2025-06-18 16:05:30 发布

阅读量9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： spark 文章标签： pyspark

本文链接：https://blog.youkuaiyun.com/xiaoQL520/article/details/78772976

spark 专栏收录该内容

14 篇文章

订阅专栏

本文介绍了如何在PySpark中查看DataFrame数据，包括使用count(), filter()和SQL查询。通过示例展示了筛选特定条件数据的方法，如利用like关键字匹配以特定字符开头的字段。" 137711398,161309,使用ioctl深入获取WiFi信号属性,"['网络编程', '无线信号强度', 'ioctl', 'WiFi扫描']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在查看dataFrame的信息时，可以通过collect()、show()、或者take()、来查看DataFrame中的数据（show()和take()包含了限制返回行数的选项）

1.查看行数

可以使用count()方法查看DataFrame的行数

from pyspark.sql import SparkSession

spark= SparkSession\
                .builder \
                .appName("dataFrame") \
                .getOrCreate()
# # 导入类型
from pyspark.sql.types import *
#生成以逗号分隔的数据
stringCSVRDD = spark.sparkContext.parallelize([
    (123,"Katie",19,"brown"),
    (234,"Michael",22,"green"),
    (345,"Simone",23,"blue")
])
#指定模式,StructField(name,dataType,nullable)其中name:该字段的名字，dataType：该字段的数据类型，nullable:指示该字段的值是否为空
schema = StructType([
    StructField("id",LongType(),True),
    StructField("name",StringType(),True),
    StructField("age",LongType(),True),
    StructField("eyeColor",StringType(),True)
])
#对RDD应用该模式并且创建DataFrame
swimmers = spark.createDataFrame(stringCSVRDD,schema)
#利用DataFrame创建一个临时视图
swimmers.registerTempTable("swimmers")
#查看DataFrame的行数
print swimmers.count()

2.筛选语句

使用filter字句运行筛选语句

#获取age=22的id
swimmers.select("id","age").filter("age=22").show()

+---+---+
| id|age|
+---+---+
|234| 22|
+---+---+

上述查询的另一种写法

swimmers.select(swimmers.id,swimmers.age).filter(swimmers.age==22).show()

+---+---+
| id|age|
+---+---+
|234| 22|
+---+---+

如果只想得到眼睛颜色是以字母b开头的人的名字，则可使用like

#获得eyeColor like 'b%'的（name）名字，（eyeColor）眼睛颜色
swimmers.select("name","eyeColor").filter("eyeColor like 'b%'").show()

3.利用SQL查询

可以执行SQL查询是因为对swimmers数据执行了.registerTempTable方法

查询行数

# swimmers.select("name","eyeColor").filter("eyeColor like 'b%'").show()
spark.sql("select count(1) from swimmers").show()

+--------+
|count(1)|
+--------+
| 3|
+--------+

利用where字句运行筛选语句

#用SQL获得age=22的id，age
spark.sql("select id,age from swimmers where age=22").show()

+---+---+
| id|age|
+---+---+
|234| 22|
+---+---+

如果只是想要取回眼睛颜色以字母b开头的人的名字，则可以使用like

spark.sql("select name,eyeColor from swimmers where eyeColor like 'b%'").show()