SparkSQL DataFrame进阶篇

本文深入探讨SparkSQL DataFrame的创建与操作,包括通过不同方式创建DataFrame、修改列名、数值统计、select、filter、聚合操作等。重点讲解了如何使用withColumn、groupBy、agg和pivot等高级功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SparkSQL DataFrame基础篇
SparkSQL DataFrame进阶篇

1.创建SparkSession【2.0】和 SQLContext实例【1.x】

1.创建SparkSession【2.0///spark2.0后,用sparksession代替sparkcontext和sqlcontext的创建
val spark= SparkSession.builder().appName("SparkSQLTest").getOrCreate()
val numbers=spark.range(1 ,10, 2)
numbers.show()

2.创建SQLContext实例【1.x】
val conf= new SparkConf().setAppName("SQL_Advanced_case").setMaster("local")
val sc=new SparkContext(conf)
val sqlContext=new SQLContext(sc)
import.sqlContext.implicits._

2.创建DataFrame

方式1:不创建RDD

使用createDataFram方法,直接基于列表List创建DataFrame.缺点是创建出来的DataFrame没有列名

val customerData=List(("Alex","浙江",39,230.00), ("Bob","北京", 18, 170.00), ("Chris", "江苏", 45, 529.95), ("Dave", "北京", 25, 99.99), ("Ellie", "浙江", 23, 1299.95), ("Fred", "北京", 21, 1099.00))
val customerDF1=sqlContext.createDataFrame(customerData)
customerDF1.printSchema
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值