数据转换:使用dplyr进行数据处理
1. 引言
整洁的数据固然重要,但这并非终点。在进行数据可视化之前,你可能没有合适的变量,或者需要对数据进行一些聚合操作。dplyr包可以帮助你解决这些问题。
dplyr的目标是提供一系列动词(函数),帮助你解决95%的常见数据操作问题。它与ggplot2类似,不过ggplot2提供的是图形语法,而dplyr提供的是数据操作语法。dplyr不仅为你提供函数,还能帮助你思考数据操作。特别是,它会对你进行约束:你无需在数千个可能有用的函数中苦苦寻找,只需从少数几个精心设计的函数中选择即可。
在本文中,你将学习四个最重要的dplyr动词:
- filter()
- mutate()
- group_by() 和 summarise()
这些动词很容易学习,因为它们的工作方式相同:将数据框作为第一个参数,并返回一个修改后的数据框。其他参数控制转换的细节,并且总是在数据框的上下文中进行解释,因此你可以直接引用变量。
你还将学习如何使用 %>% 创建数据转换管道。 %>% 在dplyr中的作用类似于 + 在ggplot2中的作用:它允许你通过组合易于单独理解的小部分来解决复杂问题。
2. 过滤观测值
在数据分析中,我们常常只希望探索数据集的一部分。一个很好的数据分析策略是从一个观测单元(一个人、一个城市等)开始,在尝试将结论
超级会员免费看
订阅专栏 解锁全文
920

被折叠的 条评论
为什么被折叠?



