R语言数据结构与工作保存全解析
1. 数据框(Data Frames)
1.1 数据框概述
在R语言里,数据框是与Stata数据集最为相似的数据结构。它和Stata数据集一样,都是矩形的,列代表变量,行代表观测值。从R语言的术语来讲,列也被称作向量、变量或者就叫列,而行则被叫做观测、案例或者就叫行。
数据框是一种广义的矩阵,它可以同时包含字符型和数值型的列。同时,它也是一种特殊的列表,要求每个组件的长度相同。
1.2 为何需要数据框
R语言能够利用存储在向量和因子中的数据生成各种分析结果和图形。不过,在使用向量和因子时,需要确保数据配对的合理性。要是对某个向量进行独立排序,或者独立移除向量中的缺失值,就会丢失数据配对的关键信息,进而得到误导性的分析结果。而数据框则有助于维护这种关键的配对信息。
1.3 创建数据框
1.3.1 常见创建方式
创建数据框最常见的方式是从其他数据源(如文本文件、电子表格或数据库)读取数据,通常只需调用一个函数即可完成。
1.3.2 手动创建示例
下面通过结合向量和因子来手动创建一个数据框:
workshop <- c(1,2,1,2,1,2,1,2)
workshop <- factor(workshop,
levels = c(1,2,3,4),
labels = c("R","Stata","SPSS","SAS") )
gender