数据挖掘

最新推荐文章于 2025-03-19 23:40:08 发布

原创最新推荐文章于 2025-03-19 23:40:08 发布 · 177 阅读

CC 4.0 BY-SA版权

文章标签：

Rstudio
#read data 读取数据的三种方法
mydata<-read.table("D:\\...",header=T)
mydata<-read.table(file.choose(),header=T)
mydata<-read.table("clipboard",header=T)
str(mydata)
mydata
mydata$admit<-as.factor(mydata$admit)
mydata$rank<-as.factor(mydata$rank)
#划分数据
set.seed(1234) #设计随机种子（使模拟重复）
ind<-sample(2,nrow(mydata),replace =T,prob = c(0.8,0.2) )
train<-mydata[ind==1,]
test<-mydata[ind==2,]
#Logistic regression mode
m1<-glm(admit~gre+gpa+rank,data=train,family="binomial")
summary(m1) #查看模型 gre未通过显著性检验
m1<-glm(admit~gpa+rank,data=train,family="binomial")  #删除gre后进行检验
summary(m1)
#prediction-train（训练集）
p1<-predict(m1,train,type = "response") #预测(模型,数据集train表示训练集,类型)
head(p1) 
#Misclassification error-train data 错分概率
pred1<-ifelse(p1>0.5,1,0)
tab1<-table(predicted=pred1,Actual=train$admit) #输出混淆矩阵，真实值和预测值
tab1
#准确率
sum(diag(tab1))/sum(tab1)
#错误率
1-sum(diag(tab1))/sum(tab1)
#prediction-test（测试集）
p2<-predict(m1,test,type = "response") #预测(模型,数据集test表示测试机集,类型)
head(p2) 
#Misclassification error-train data 错分概率
pred2<-ifelse(p2>0.5,1,0)
tab2<-table(predicted=pred2,Actual=test$admit) #输出混淆矩阵，真实值和预测值
tab2
#准确率
sum(diag(tab2))/sum(tab2)
#错误率
1-sum(diag(tab2))/sum(tab2)