【博学谷学习记录】超强总结，用心分享| Spark SQL函数定义

奔跑如风

已于 2023-06-08 11:08:50 修改

阅读量384

点赞数

文章标签：大数据

于 2023-03-19 20:24:46 首次发布

本文链接：https://blog.youkuaiyun.com/qq331570870/article/details/129655855

版权

本文详细介绍了Spark SQL中的窗口函数及其使用，包括row_number(), rank(), dense_rank()等，并探讨了SQL函数的三大分类：UDF、UDAF和UDTF。此外，文章还讨论了为何需要自定义函数，特别是在Python中使用Spark SQL时面临的效率问题，以及如何通过Arrow框架和pandas自定义函数来提升性能。最后，展示了如何在Python中创建并注册自定义Spark SQL函数。" 119131103,10540295,光学系统像差模拟与测量技术,"['光学系统', '像差模拟', '光学测量', 'MTF测量', '光学设计']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 如何使用窗口函数

窗口函数格式:

分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])

学习的相关分析函数有那些?

第一类: row_number() rank() dense_rank() ntile()

第二类: 和聚合函数组合使用 sum() avg() max() min() count()

第三类: lag() lead() first_value() last_value()

SQL中: 与HIVE中应用基本没啥区别, 更多关注的是DSL写法

from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession
import pyspark.sql.functions as F
from pyspark.sql import Window as win
import os

# 锁定远端环境, 确保环境统一
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'

if __name__ == '__main__':
    print("演示: 如何在Spark SQL中使用窗口函数...")

    # 1- 创建SparkSession对象
    spark = SparkSession.builder.appName('df_write').master('local[*]').getOrCreate()

    # 2-读取外部文件的数据
    df = spark.read.csv(
        path='file:///export/data/workspace/ky06_pyspark/_03_SparkSql/data/pv.csv',
        header=True,

最低0.47元/天解锁文章