R语言学习_csdn r语言学习-优快云博客

这里写自定义目录标题

数据整理

数据整理

1.提取X数据表中，“D列"数据等于"特定值”，并将结果存为Y数据

Y <- X[X$D列 == "特定值", ]

按某1列数据，合并相同样品的多列 merge(x,y,by=)
#合并行bind_rows()
完全匹配的行、列合并，可以用cbind()和rbind()
管道符

xdata <- data %>% mutate(log10_Pressure = log10(注入压力),log10_dV_dp = log10(d_x_d_p))
ydata <- xdata %>% select(sample_name,log10_Pressure,log10_dV_dp)

2.近似匹配
fuzzyjoin包中difference_inner_join函数能够实现近似匹配

difference_inner_join(x, y, by = "column", max_dist = 0.3, distance_col = NULL)

x, y：要连接的两个数据框
by：基于哪一列进行数值匹配
max_dist：允许的最大数值差异（例如不大于0.3）
distance_col：（可选）新列名，用于存储实际的距离值

3.其他记录
管道符修改OK_data中sample_name（裁剪掉.csv）``

OK_data %<% mutate(OK_data$sample_name = gsub(".csv","",OK_data$sample_name)


#创建三列数据的数据框```
OK_data <- OK_data %>%
mutate(sample_name = gsub(".csv", "", sample_name))

#在总数据表Hg_data中筛选出与exact_matches中井名和列名都不同的其他列。
unmatches <- Hg_data %>% filter(!(Well_Name %in% exact_matches$Well_Name &Sample_Name %in% exact_matches$Sample_Name))

df_list <- list()

for (i in col_names){
  single_well <- Total_matches[Total_matches$Well_Name==i,]
  df_list[[i]] <- data.frame(Well_Name = i,Sample_Name = single_well$Sample_Name)
}
df <- bind_rows(df_list)