DataFrame常见方法-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_80640837/article/details/142993938

1.withCoumn添加修改列

.withColumn("etl_date", etl_date)

.withColumn()方法：
- 这是 Spark DataFrame 中用于添加新列或修改现有列的方法。
- 它接受两个参数，第一个参数是新列的名称或要修改的现有列的名称，第二个参数是用于计算新列值的表达式

.where(condition)

condition是一个布尔类型的表达式，用于指定筛选条件

条件筛选
- 可以根据特定的条件筛选出符合要求的行。条件可以是基于列的值进行比较、逻辑运算等。
- 例如，可以筛选出年龄大于 30 的人，或者筛选出特定城市的居民。

.limit(n)

.limit(n)方法用于限制查询数据中的行数，只返回前 n 行数据。

.show()

数据预览
- 可以快速查看 DataFrame 中的数据，以便了解数据的结构和内容。
- 对于小规模数据集，可以直接查看全部数据；对于大规模数据集，可以显示前几行数据。

.gropBy()

.groupBy()方法用于对 DataFrame 中的数据进行分组操作

数据聚合

.orderBy()

.orderBy()方法用于对 DataFrame 中的数据进行排序操作

数据排序
- 根据指定的列对数据进行升序或降序排列。可以指定一个或多个列作为排序的依据。
- 例如，可以按照年龄升序排列人员数据，或者按照销售额降序排列销售记录。

.partitionBy()

.partitionBy()方法用于对数据进行分区操作，通常在写入数据到文件系统（如 Hive 表、Parquet 文件等）时使用，也可在一些特定的操作中提高性能

数据分布优化

.agg()

多列聚合

可以是内置的聚合函数（如sum、avg、max、min等）

.agg(
count()
max()
min()
avg()
)

row_number() over(Window.partitionBy().orderBy())

此方法的作用是为行添加行号

注意：row_number() over(Window.）不能单独使用，需要搭配其他方法使用

此方法的作用是为某分区内为排序字段添加行号

.drop()

去除不需要的列
- 当数据集中存在一些不需要进行分析或处理的列时，可以使用drop方法将其删除，以减少数据的维度和存储空间。
- 例如，如果一个数据集中包含了一些敏感信息的列或者与当前分析任务无关的列，可以将其删除，以保护数据安全或提高分析效率。

.select()

.select("id","name","rating")的作用是指定要从数据源中选择的列。

具体来说，它告诉数据库查询引擎只返回指定的 “id”“name” 和 “rating” 这三个字段的数据，而不是返回所有字段的数据。

date_sub(startDate, days)

其中，startDate是一个日期列或日期表达式，表示要进行减法运算的起始日期。days是一个整数，表示要减去的天数。

date_format(date,format)

2024 年 10 月 17 日会被格式化为 “20241017”

.format(DateTimeFormatter.ofPattern("yyyyMMdd"))

2024 年 10 月 17 日会被格式化为 “20241017”

LocalDate.now().minusDays()

to_timestamp($"create_time","yyyyMMddHHmmss")

在 Spark SQL 中，to_timestamp($"create_time","yyyyMMddHHmmss")是一个用于将字符串类型的时间值转换为时间戳类型的表达式。

to_timestamp函数：这个函数接受两个参数。第一个参数是要转换为时间戳的列表达式，这里是$"create_time"，表示名为 “create_time” 的列。第二个参数是时间字符串的格式，这里是 “yyyyMMddHHmmss”，表示年（四位数）月（两位数）日（两位数）时（两位数）分（两位数）秒（两位数）的格式。
"create_time"列：假设这是一个包含字符串类型时间值的列，例如 “20241017123456” 表示 2024 年 10 月 17 日 12 时 34 分 56 秒。