dplyr-distinct 行记录去重细节处理

原创于 2022-06-26 13:13:22 发布 · 1.5k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#r语言

R语言：数值分析专栏收录该内容

18 篇文章

订阅专栏

本文介绍了R语言dplyr包中用于数据去重的方法，包括distinct函数及其参数用法，如指定列去重和保持所有列。同时，展示了如何结合group_by和slice函数实现更灵活的去重策略，如随机保留一条重复记录、保留第一条或最后一条记录，以及按特定列排序后去重。这些方法对于数据预处理和清洗非常实用。

dplyr::distinct对数据框去重，该方法默认保留重复记录的第一条记录

通过指定一列或多列进行去重

df %>% distinct( `column1` , `column2` ,  `···`, .keep_all = T) #.keep_all表示去重后返回数据框的所有列向量

通过基于所有列向量去除重复行记录

df %>% distinct()

此外，除了使用distinct函数处理重复行记录，在dplyr管道中，还推荐使用group_by配合使用 slice实现更细致的去重操作，如：

随机保留1条重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice_sample(n = 1) %>% data.frame()

保留第1个重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice(1) %>% data.frame()

保留最后1个重复行记录

df %>% group_by(`column1` ,  `···`)  %>% slice( n() ) %>% data.frame()

根据一列向量进行分组排序再去重保留符合要求的记录

df %>% group_by(`column1`) %>% arrange(desc(`column3`)) %>% slice(1) %>% data.frame()