dplyr项目中的窗口函数详解：数据处理中的高级技巧-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00151/article/details/148508423

dplyr项目中的窗口函数详解：数据处理中的高级技巧

dplyr dplyr: A grammar of data manipulation 项目地址: https://gitcode.com/gh_mirrors/dp/dplyr

什么是窗口函数？

窗口函数（Window functions）是dplyr包中一组强大的数据处理工具，它们能够对向量进行操作并返回与输入长度相同的输出结果。与常规聚合函数（如sum()、mean()）不同，窗口函数不会减少数据量，而是为每个输入元素生成一个对应的输出值。

窗口函数特别适合与mutate()和filter()函数结合使用，能够解决许多复杂的数据处理问题。理解窗口函数的工作原理，将使你的数据操作能力提升到一个新的水平。

窗口函数的五大类型

1. 排名与排序函数

这类函数主要用于对数据进行排序和排名处理：

row_number(): 为每个元素分配唯一序号，相同值按出现顺序编号
min_rank(): 相同值获得相同排名，后续排名跳过相同数量的位置
dense_rank(): 相同值获得相同排名，但后续排名不跳过位置
cume_dist(): 计算累积分布（小于等于当前值的比例）
percent_rank(): 计算百分比排名（0到1之间的相对位置）
ntile(): 将数据分成n个大致相等的组

# 示例：找出每个球员表现最好的两个赛季
filter(players, min_rank(desc(H)) <= 2 & H > 0)

# 示例：计算每个球员各赛季比赛场数的排名
mutate(players, G_rank = min_rank(G))

2. 偏移函数

偏移函数允许你访问向量中前一个或后一个值：

lead(): 获取下一个值
lag(): 获取上一个值

这些函数特别适合计算差异和趋势：

# 示例：找出球员表现比前一年好的赛季
filter(players, G > lag(G))

# 示例：计算球员每年比赛场数的变化率
mutate(players, G_change = (G - lag(G)) / (yearID - lag(yearID)))

3. 累积聚合函数

这些函数是常规聚合函数的累积版本：

cumsum(): 累积求和
cummin()/cummax(): 累积最小值/最大值
cummean(): 累积平均值
cumall()/cumany(): 累积逻辑与/或

# 示例：找出球员首次达到150场比赛后的所有赛季记录
filter(players, cumany(G > 150))

4. 滚动聚合函数

虽然dplyr本身不提供滚动聚合函数，但这类函数在时间序列分析中非常有用。它们在一个固定宽度的窗口上计算聚合值，可以通过其他R包如RcppRoll实现。

5. 循环聚合函数

在R中，由于向量自动循环的特性，这类函数不太需要。但在SQL中很重要，因为它们可以将聚合结果循环扩展到与输入相同的长度。

实际应用技巧

处理排序问题

当数据未按预期顺序排列时，可以使用order_by参数确保偏移函数按正确顺序工作：

# 错误示例：未指定排序依据
wrong <- mutate(scrambled_data, prev_value = lag(value))

# 正确示例：明确指定按年份排序
right <- mutate(scrambled_data, prev_value = lag(value, order_by = year))

分组分析

窗口函数与group_by()结合使用时，计算会在每个分组内独立进行：

# 示例：计算每个球员相对于其平均表现的Z分数
mutate(players, G_z = (G - mean(G)) / sd(G))

# 示例：找出表现高于个人平均水平的赛季
filter(players, G > mean(G))

分位数分析

使用ntile()函数可以轻松进行分位数分析：

# 示例：将球员按总比赛场数分为4组并计算每组的平均值
by_team_player <- group_by(batting, teamID, playerID)
by_team <- summarise(by_team_player, G = sum(G))
by_team_quartile <- group_by(by_team, quartile = ntile(G, 4))
summarise(by_team_quartile, mean(G))