R语言数据处理与分析:从杂乱数据到清晰洞察
处理杂乱数据
在数据处理过程中,我们常常会遇到杂乱的数据。以下是处理这类数据的详细步骤和方法。
什么是杂乱数据
杂乱数据有多种形式,这里以一个典型例子说明:对同一事物(如细菌密度)在多个日期进行观测,每个日期的观测值存于单独列中。数据的行对应实验单元(由消耗细菌的原生生物物种和环境温度定义),还有一个唯一标识符“Bottle”。
nasty.format <- read.csv("nasty format.csv")
str(nasty.format)
数据预处理
数据框中有37条观测和11个变量,但实际实验只有36个实验单元。通过在RStudio环境面板中查看数据,发现第37行无数据,这可能是Excel操作导致的。我们使用 dplyr 包中的 filter() 函数去除这一行。
library(dplyr)
nasty.format <- filter(nasty.format, Bottle != "")
glimpse(nasty.format)
数据整理
使用 tidyr 包中的 gather() 函数将数据整理成整齐的格式。我们需要创建两个新变量:一个包含观测日期,另一个包含细菌丰度观测值,并将数据移动到新列中。
超级会员免费看
订阅专栏 解锁全文
1433

被折叠的 条评论
为什么被折叠?



