R 数据分析实用技巧与项目管理指南
1. 数据整理与长格式转换
在数据处理中,有时需要将原本分散在各列的教育类别整合到新的列中。例如,原本不同的教育类别分布在列标题中,现在将其集中到两个新列。 school 变量作为关键列,包含了从小学零到四年到大学四年及以上等所有教育类别,这些类别在新的数据格式中按行堆叠。 freq 变量则是值列,存储了每个教育类别对应的唯一值。当数据转换为这种长格式后,就可以方便地使用 ggplot 和相关的 tidyverse 工具进行分析和可视化。
以下是相关数据示例:
# 部分数据示例
# 25 - 34 岁男性数据
## # A tibble: 6 x 7
## age sex year total median school freq
## <chr> <chr> <int> <int> <dbl> <chr> <dbl>
## 1 25-34 Male 2016 21845 NA elem4 116.
## 2 25-34 Male 2015 21427 NA elem4 166.
## 3 25-34 Male 2014 21217 NA elem4 151.
## 4 25-34 Male 2013 20816 NA elem4 161.
## 5 25-34 Male 2012 20464 NA elem4 16
超级会员免费看
订阅专栏 解锁全文
1209

被折叠的 条评论
为什么被折叠?



