记：pyspark读取嵌套json字段并使用startswith统计

最新推荐文章于 2025-05-06 11:03:47 发布

追枫萨

最新推荐文章于 2025-05-06 11:03:47 发布

阅读量936

点赞数

文章标签： spark

本文链接：https://blog.youkuaiyun.com/m0_38052384/article/details/105800511

版权

大数据专栏收录该内容

6 篇文章

订阅专栏

本文介绍使用Spark SQL读取和处理大规模JSON数据集的方法，包括数据加载、字段选择、重命名及过滤操作，展示了如何统计特定前缀的user_id数量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >


from pyspark.sql import SparkSession
from pyspark.sql import SQLContext


spark = SparkSession.builder.appName('face_history').enableHiveSupport().getOrCreate()
sc = spark.sparkContext
sqlContext = SQLContext(spark)

path_cluster="/home/202004*"
df=sqlContext.read.json(path_cluster)
df_=df.select(df.data.user_id)
print(df_.printSchema()) #data.user_id

#必须重命名，不然后面访问df_.data.user_id的话会提示df没有data属性
df_=df_.withColumnRenamed("data.user_id","user_id")
print(df_.count())
#通配符统计user_id字段以'800'、'700'开头的数量
print(df_.filter(df_.user_id.startswith('800')).count())
print(df_.filter(df_.user_id.startswith('700')).count())