[转] R 2 数据观察

最新推荐文章于 2023-08-27 06:12:18 发布

转载最新推荐文章于 2023-08-27 06:12:18 发布 · 514 阅读

R 学习专栏收录该内容

18 篇文章

订阅专栏

# 1、主体查看

class(data)    #查看对象类型  
str(data)      #探寻数据集内部结构  
summary(data)   #获取数据集data的概括信息  
dim(data)      #查看数据集data的纪录数和维度数
	nrow(data)     #查看行数  
	ncol(data)     #查看列数  
	length(data)     #查看列数 
table(data$is_do)    #查看数据集data中维度is_do的数值分布

# 2、数据查看

head(data)     #前若干条数据
tail(data)     #后若干条数据

row.names(mtcars)  #查看行标题
names(mtcars)     #查看字段

mtcars[3,2]    #查看指定行、列
mtcars[c(1,3),]  #查看1，3行
mtcars[mtcars$mpg>15,3]  查看3列，条件是mpg列大于15
mtcars[which.max(mtcars$mpg),]  #mpg最大的行
mtcars$mpg[which.max(mtcars$mpg)]   #mpg列，条件是mpg最大

# 3、分布情况

max(iris[,1])  #最大值
min(iris[,1])  #最小值
hist(iris[,1])  #数据直方图
table(iris[,1])  #数据频数
prop.table(table(iris[,1])) #数据各水平占比
pie(table(iris[,1]))  #各水平占比饼图
barplot(table(iris[,1]))  #各水平占比条形图

# 4、统计量

length(a)    #向量长度
mean(a)      #求平均数
median(a)    #求中位数
sort(a)      #向量排序
var(a)       #求方差
sd(a)        #求标准差
quantile(x)  #求百分位数
    # quantile（x，probs = seq（0,1,0.25），na.rm = FALSE，names = TRUE，type = 7，...）
    # probs给出相应的百分位数，默认是0，1/4.1/2，3/4，1；
    # na.rm是逻辑变量，当ra.rm=TRUE时可以处理缺失数据的情况。

# 5、贡献度

ss<-mtcars[order(-mtcars[,4]),]
total<-c()  #新建累积变量
for(i in 1:length(mtcars[,1])){ total[i]=sum(ss[1:i,4])/sum(ss[,4])}
plot(total)  #画出累积频率点图
abline(h=0.8)  #添加累计线

# 6、相关性

plot(ss[,1],ss[,4]) #散点图观察
cor(ss[,1],ss[,4]) #相关系数
cor(ss[,1:4])  #相关系数矩阵
pairs(ss[,1:4])  #相关系数矩阵图

# 7、周期性

原文地址：http://www.ppvke.com/Blog/archives/28979