数据挖掘

Rstudio
#read data 读取数据的三种方法
mydata<-read.table("D:\\...",header=T)
mydata<-read.table(file.choose(),header=T)
mydata<-read.table("clipboard",header=T)
str(mydata)
mydata
mydata$admit<-as.factor(mydata$admit)
mydata$rank<-as.factor(mydata$rank)
#划分数据
set.seed(1234) #设计随机种子(使模拟重复)
ind<-sample(2,nrow(mydata),replace =T,prob = c(0.8,0.2) )
train<-mydata[ind==1,]
test<-mydata[ind==2,]
#Logistic regression mode
m1<-glm(admit~gre+gpa+rank,data=train,family="binomial")
summary(m1) #查看模型 gre未通过显著性检验
m1<-glm(admit~gpa+rank,data=train,family="binomial")  #删除gre后进行检验
summary(m1)
#prediction-train(训练集)
p1<-predict(m1,train,type = "response") #预测(模型,数据集train表示训练集,类型)
head(p1) 
#Misclassification error-train data 错分概率
pred1<-ifelse(p1>0.5,1,0)
tab1<-table(predicted=pred1,Actual=train$admit) #输出混淆矩阵,真实值和预测值
tab1
#准确率
sum(diag(tab1))/sum(tab1)
#错误率
1-sum(diag(tab1))/sum(tab1)
#prediction-test(测试集)
p2<-predict(m1,test,type = "response") #预测(模型,数据集test表示测试机集,类型)
head(p2) 
#Misclassification error-train data 错分概率
pred2<-ifelse(p2>0.5,1,0)
tab2<-table(predicted=pred2,Actual=test$admit) #输出混淆矩阵,真实值和预测值
tab2
#准确率
sum(diag(tab2))/sum(tab2)
#错误率
1-sum(diag(tab2))/sum(tab2)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值