朴素贝叶斯法

原创于 2016-09-05 21:45:44 发布 · 597 阅读

0 ·

CC 4.0 BY-SA版权

统计学习专栏收录该内容

3 篇文章

订阅专栏

贝叶斯理论体系都是建立在那个众所周知的贝叶斯公式上，贝叶斯原理简单，一些名家所言，里面蕴含着深奥的道理，朴素贝叶斯法是一种简单的分类方法，在机器学习领域广泛应用。在网上经常看到各个版本的贝叶斯分类器的实现，不过总是感觉由以下两点没有陈述清楚，其一，针对连续型变量的处理没有给出具体的显式表达式；其二，代码与文字掺杂，多数初学者看不下去。下面给出具体实现，连续型变量经过了测试，离散型变变量没有经过测试，可能会有bug。

a<-c(1,0,1,1,0,1,0,1,0,0)
b<-c(0.1,-0.1,0.2,0.3,-0.2,0.4,-0.2,0.3,-0.1,-0.3)
c<-c(5,3,6,7,2,5,1,7,1,2)
d<-c(1,10,2,3,8,7,3,9,2,2)
e<-c(-1,-10,2,5,3,0,1,2,2,4)
data<-cbind(a,b,c,d,e)

#caculate prior probability
#do not consider other terms to caculate the probability
priorpfun<-function(y){
    prior_0=sum(y==0)/length(y)
    prior_1=sum(y==1)/length(y)
    return(c(prior_0,prior_1))
}

#caculate post probability
#gauss-distribution
contiousfun<-function(x,y,condition){
    u=rbind(apply(x[which(y==0),],2,mean),apply(x[which(y==1),],2,mean))
    e=rbind(apply(x[which(y==0),],2,sd),apply(x[which(y==1),],2,sd))
    m=dnorm(condition[1],mean=u[1,1],sd=e[1,1])*
      dnorm(condition[2],mean=u[1,2],sd=e[1,2])*
      dnorm(condition[3],mean=u[1,3],sd=e[1,3])*
      dnorm(condition[4],mean=u[1,4],sd=e[1,4])
    n=dnorm(condition[1],mean=u[2,1],sd=e[2,1])*
      dnorm(condition[2],mean=u[2,2],sd=e[2,2])*
      dnorm(condition[3],mean=u[2,3],sd=e[2,3])*
      dnorm(condition[4],mean=u[2,4],sd=e[2,4])
    return(as.numeric(c(m,n)))     
}
#dicrete distribution
dicretefun<-function(x,y,condition){
    m=sum(x[,1]==condition[1] & sum(y==0))/sum(y==0)*
      sum(x[,2]==condition[2] & sum(y==0))/sum(y==0)*
      sum(x[,3]==condition[3] & sum(y==0))/sum(y==0)*
      sum(x[,4]==condition[4] & sum(y==0))/sum(y==0)
    n=sum(x[,1]==condition[1] & sum(y==1))/sum(y==1)*
      sum(x[,2]==condition[2] & sum(y==1))/sum(y==1)*
      sum(x[,3]==condition[3] & sum(y==1))/sum(y==1)*
      sum(x[,4]==condition[4] & sum(y==1))/sum(y==1)
    return(as.numeric(c(m,n)))
}

#predict function
Bayespre<-function(x,y,condition){
    if(is.numeric(x)){
       m1=priorpfun(y)[1]*contiousfun(x,y,condition)[1]
       m2=priorpfun(y)[2]*contiousfun(x,y,condition)[2]
    }else{
       m1=priorpfun(y)[1]*dicretefun(x,y,condition)[1]
       m2=priorpfun(y)[2]*dicretefun(x,y,condition)[2]
    }
    return(ifelse(m1>m2,0,1))
}  


Bayespre(data[,-1],data[,1],data[1,-1])