在数据整理过程中如果想通过身高和体重的运算生成一个新的变量BMI怎么办?如果想按照某一类别分组计算怎么办?如果想按照某一条件分层分析怎么办?......dplyr包用于数据的整理和清洗非常便捷高效,简单直接,不需要中间变量的转换。几乎是每个数据处理都会用到的基本技能。具有以下特点:
-
dplyr包用于输入和输出数据
-
dplyr严重依赖“非标准评估(non-standard evaluation)”,所以不需要使用$来引用当前数据框中的列。
-
dplyr与R基本函数比更倾向于使用单一目的的函数。
-
dplyr多重函数经常使用%>%串在一起,而基本函数通常需要将中间结果保存在一个变量里,要么覆盖要么删除。
-
dply所有函数都处理分组数据框,因此代码进行每组计算时看上去与处理整个数据框的代码很相似。在基本R语言中,每组的运算都倾向有不同的形式。
现在以多个R内置数据集为例来说明如何利用包dplyr进行列处理
初步认识函数cross
-
初步认识函数cross,分类计算均值,经过之前的学习基础,大家可能通过下面函数按照类别计算不同组均数