删除重复的数据行 - R语言

CodeSpark

于 2023-08-25 00:35:29 发布

阅读量3.7k

点赞数 3

CC 4.0 BY-SA版权

文章标签： r语言开发语言 R语言

本文链接：https://blog.youkuaiyun.com/CodeSpark/article/details/132485929

R语言专栏收录该内容

90 篇文章 ¥59.90 ¥99.00

订阅专栏

在数据分析中，删除重复数据行是常见操作。本文介绍了R语言的三种方法：1) 使用duplicated()和subset()函数；2) 利用distinct()函数；3) 结合dplyr包的distinct()函数。每种方法都提供了示例代码，帮助用户根据需求选择合适的方式处理重复行。

删除重复的数据行 - R语言

在数据分析和处理的过程中，经常会遇到需要删除重复数据行的情况。在R语言中，我们可以使用不同的方法来删除DataFrame（数据框）中的重复行。本文将介绍几种常用的方法，并提供相应的源代码。

方法一：使用duplicated()函数和subset()函数

# 创建一个示例DataFrame
df <- data.frame(
  ID = c(1, 2, 3, 4, 1),
  Name = c("John", "Jane", "Tom", "Jerry", "John"),
  Age = c(25, 30, 35, 40, 25)
)

# 查找并删除重复的数据行
df <- df[!duplicated(df[, c("ID", "Name", "Age")]), ]

上述代码中，我们首先创建了一个示例的DataFrame df，其中包含了ID、Name和Age三列。接下来，我们使用duplicated()函数和subset()函数来查找并删除重复的数据行。在subset()函数中，我们指定了要检查重复的列，即"ID"、“Name"和"Age”。通过在duplicated()函数前加上取反运算符!，我们得到了一个逻辑向量，表示哪些行是重复的。最后，我们将逻辑向量应用于DataFrame df，只保留非重复的行。

<

了解本专栏