# 1、主体查看
class(data) #查看对象类型
str(data) #探寻数据集内部结构
summary(data) #获取数据集data的概括信息
dim(data) #查看数据集data的纪录数和维度数
nrow(data) #查看行数
ncol(data) #查看列数
length(data) #查看列数
table(data$is_do) #查看数据集data中维度is_do的数值分布
# 2、数据查看
head(data) #前若干条数据
tail(data) #后若干条数据
row.names(mtcars) #查看行标题
names(mtcars) #查看字段
mtcars[3,2] #查看指定行、列
mtcars[c(1,3),] #查看1,3行
mtcars[mtcars$mpg>15,3] 查看3列,条件是mpg列大于15
mtcars[which.max(mtcars$mpg),] #mpg最大的行
mtcars$mpg[which.max(mtcars$mpg)] #mpg列,条件是mpg最大
# 3、分布情况
max(iris[,1]) #最大值
min(iris[,1]) #最小值
hist(iris[,1]) #数据直方图
table(iris[,1]) #数据频数
prop.table(table(iris[,1])) #数据各水平占比
pie(table(iris[,1])) #各水平占比饼图
barplot(table(iris[,1])) #各水平占比条形图
# 4、统计量
length(a) #向量长度
mean(a) #求平均数
median(a) #求中位数
sort(a) #向量排序
var(a) #求方差
sd(a) #求标准差
quantile(x) #求百分位数
# quantile(x,probs = seq(0,1,0.25),na.rm = FALSE,names = TRUE,type = 7,...)
# probs给出相应的百分位数,默认是0,1/4.1/2,3/4,1;
# na.rm是逻辑变量,当ra.rm=TRUE时可以处理缺失数据的情况。
# 5、贡献度
ss<-mtcars[order(-mtcars[,4]),]
total<-c() #新建累积变量
for(i in 1:length(mtcars[,1])){ total[i]=sum(ss[1:i,4])/sum(ss[,4])}
plot(total) #画出累积频率点图
abline(h=0.8) #添加累计线
# 6、相关性
plot(ss[,1],ss[,4]) #散点图观察
cor(ss[,1],ss[,4]) #相关系数
cor(ss[,1:4]) #相关系数矩阵
pairs(ss[,1:4]) #相关系数矩阵图
# 7、周期性

被折叠的 条评论
为什么被折叠?



