R - dplyr 包



新增列 Mutate
Mutate is used to add new variables to the data. For example lets adds a new column that displays the temperature in Celsius.
mutate(airquality, TempInC = (Temp - 32) * 5 / 9)


抽样 Sample
The sample function is used to select random rows from a table. The first line of code randomly selects ten rows from the dataset, and the second line of code randomly selects 15 rows (10% of the original 153 rows) from the dataset.
获取指定条数样本:
sample_n(airquality, size = 10)
获取指定比例样本:
sample_frac(airquality, size = 0.1)

统计 Count
The count function tallies observations based on a group. It is slightly similar to the table function in the base package. For example:
count(airquality, Month)
  Month  n
1     5 31
2     6 30
3     7 31
4     8 31
5     9 30
<think>我们被要求使用dplyr中的bind_rows函数进行数据行合并。根据引用,bind_rows()用于按行拼接数据框,通过列名匹配,不匹配的值用NA填充。我们将提供一个示例,展示如何使用bind_rows合并两个数据框。步骤:1.安装并加载dplyr(如果未安装则需要先安装)2.创建两个示例数据框,它们可以有部分相同的列名,也可以有不同的列名。3.使用bind_rows()进行按行合并。4.查看合并结果。注意:bind_rows()会按照列名进行匹配,如果某个数据框有独有的列,则另一个数据框在对应位置用NA填充。示例数据框1:df1,含id,name,age示例数据框2:df2,含id,name,score(注意:df2没有age列,但有score列)合并后,df1的行和df2的行将上下拼接,df1中score列全部为NA,df2中age列全部为NA。代码实现如下:</think>### R语言dplyrbind_rows函数数据行合并示例 在R语言中,`dplyr`的`bind_rows()`函数用于按行合并数据框(dataframe),通过列名自动匹配对齐,是数据整合的高效工具。以下为具体实现方法: #### 基础用法 ```r # 加载dplyr library(dplyr) # 创建示例数据框 df1 <- data.frame( ID = c(1, 2, 3), Name = c("Alice", "Bob", "Charlie"), Age = c(25, 30, 28) ) df2 <- data.frame( ID = c(4, 5), Name = c("David", "Eva"), Score = c(85, 92) # 注意此列在df1中不存在 ) # 按行合并数据 combined_df <- bind_rows(df1, df2) # 查看结果 print(combined_df) ``` 输出结果: ``` ID Name Age Score 1 1 Alice 25 NA 2 2 Bob 30 NA 3 3 Charlie 28 NA 4 4 David NA 85 5 5 Eva NA 92 ``` #### 关键特性说明: 1. **自动列匹配** - 相同列名(如`ID`, `Name`)自动对齐 - 独有列(如`Age`, `Score`)自动填充`NA`[^1][^2] 2. **处理列名不一致** 当列名不完全相同时(如大小写不一致): ```r df3 <- data.frame(id = c(6), NAME = c("Frank")) # 列名不同 # 合并时自动识别相似列名 bind_rows(combined_df, df3) ``` 3. **合并多个数据框** 支持同时合并多个对象: ```r df_list <- list(df1, df2, df3) multi_combined <- bind_rows(df_list) ``` 4. **添加数据源标识** 使用`.id`参数标记来源: ```r bind_rows(list(GroupA=df1, GroupB=df2), .id = "DataSource") ``` #### 注意事项: - 不需要完全相同的列结构,函数自动处理列差异[^2][^4] - 比`rbind()`更灵活,避免因列名顺序不同导致的错误[^4] - 合并后建议检查`NA`值分布:`summary(combined_df)` > **应用场景**:合并不同来源的调研数据、整合时间序列数据集、组合实验分组结果等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值