sparksql

本文介绍如何使用Hadoop命令将文件上传至HDFS,并利用PySpark进行JSON文件读取及各种数据处理操作,包括数据筛选、聚合等。

上传文件到hdfs:

hadoop fs -put /root/people.json /

/root/people.json:本地路径

/:hdfs路径

from pyspark.sql import SparkSession
spark = SparkSession \
    .builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()
------------------
df = spark.read.json("/people.json")
df.show()
df.printSchema()
df.select("name").show()
df.select(df['name'], df['age'] + 1).show()
df.filter(df['age'] > 21).show()

df.groupBy("age").count().show()
--------------------------------
df.createOrReplaceTempView("people")

sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show()
 
 

转载于:https://www.cnblogs.com/kayy/p/8515867.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值