深入理解dplyr中的列式操作：across()函数详解-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00724/article/details/148508403

深入理解dplyr中的列式操作：across()函数详解

dplyr dplyr: A grammar of data manipulation 项目地址: https://gitcode.com/gh_mirrors/dp/dplyr

概述

在数据处理过程中，我们经常需要对多个列执行相同的操作。传统方法是逐个列名复制粘贴操作代码，这不仅繁琐而且容易出错。dplyr包中的across()函数提供了一种优雅的解决方案，可以同时对多个列应用相同的转换或汇总函数。

across()基础用法

across()函数有两个主要参数：

.cols：选择要操作的列，使用与select()相同的tidy选择语法
.fns：要应用于每个列的函数或函数列表

基本示例

# 计算所有数值列的平均值
df %>% summarise(across(where(is.numeric), mean)

# 对指定列应用多个函数
df %>% summarise(across(c(height, mass), list(mean = mean, sd = sd)))

高级用法技巧

1. 多函数应用

可以同时应用多个函数，并通过.names参数控制结果列名：

# 定义最小最大值函数列表
min_max <- list(
  min = ~min(.x, na.rm = TRUE),
  max = ~max(.x, na.rm = TRUE)
)

# 应用并自定义列名格式
df %>% summarise(across(where(is.numeric), min_max, .names = "{.fn}_{.col}"))

2. 访问当前列名

在复杂转换中，可以使用cur_column()获取当前列名：

# 根据列名应用不同的乘数
mult <- list(x = 1, y = 10, z = 100)
df %>% mutate(across(all_of(names(mult)), ~ .x * mult[[cur_column()]]))

3. 与其他动词结合

across()不仅适用于summarise()，也可用于其他dplyr动词：

# 对所有数值列进行标准化
rescale01 <- function(x) {
  rng <- range(x, na.rm = TRUE)
  (x - rng[1]) / (rng[2] - rng[1])
}
df %>% mutate(across(where(is.numeric), rescale01))

常见陷阱与解决方案

1. 与n()函数的冲突

# 错误示例：n会被当作数值列处理
df %>% summarise(n = n(), across(where(is.numeric), sd))

# 正确做法：先计算across或显式排除n
df %>% summarise(across(where(is.numeric) & !n, sd), n = n())

2. 筛选行时的特殊处理

filter()需要配合if_any()或if_all()使用：

# 保留至少一个列非NA的行
df %>% filter(if_any(everything(), ~ !is.na(.x)))

# 保留所有列都非NA的行
df %>% filter(if_all(everything(), ~ !is.na(.x)))

历史演变与代码迁移

为什么选择across()

统一了之前分散的_if、_at和_all函数的功能
减少了需要记忆的函数数量
支持更复杂的列选择逻辑
不再需要手动引用变量名

旧代码迁移指南

| 旧语法 | 新语法 | |--------|--------| | mutate_if(is.numeric, mean) | mutate(across(where(is.numeric), mean)) | | mutate_at(vars(x:y), mean) | mutate(across(x:y, mean)) | | mutate_all(mean) | mutate(across(everything(), mean)) |