python实现贝叶斯分类器

最新推荐文章于 2022-07-04 22:55:22 发布

rocky_zheng

最新推荐文章于 2022-07-04 22:55:22 发布

阅读量928

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签： python 机器学习算法

本文链接：https://blog.youkuaiyun.com/sinat_16233463/article/details/36472701

机器学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一种基于贝叶斯定理的多类分类器实现，并提供了详细的Python代码示例。该分类器假设各属性间相互独立，在此基础上计算条件概率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

贝叶斯分类器是假设各个属性独立的条件下来计算的，详细原理请参阅《数据挖掘概念与技术》第三版351页。

下面直接贴上适用于多类的分类器Python代码

data=[[1,1,'yes'],
      [1,1,'yes'],
      [1,0,'no'],
      [0,1,'no'],
      [0,1,'no']]
la=['no surfacing','flippes']

#计算条件概率
def ConProb(DataSet,Feature):
    tarVar={}  #统计各个类的数量
    featureCount={}#每个特征值在每个类中出现的数量
    retProb={}
    tarList=[]#目标属性集合
    featurList=[]#feature的列表
    
    for row in DataSet:
        tarVar[row[-1]]=tarVar.setdefault(row[-1],0)+1
        flag=tuple([row[-1],row[Feature]])
        featureCount[flag]=featureCount.setdefault(flag,0)+1
        tarList.append(row[-1])#
        featurList.append(row[Feature])
    tarList=list(set(tarList))
    featurList=list(set(featurList))
  
    
    for k in tarList:
        retProb[k]={}
       
        for v in featurList:
            flag_temp=tuple([k,v])
            temp=tarVar[k]+len(featurList)#此处避免0概率的发生加上了属性值的个数
            if flag_temp in featureCount.keys():
                retProb[k][v]=(featureCount[flag_temp]+1)/temp
            else:
                retProb[k][v]=1/temp
            
    return (retProb)
        

#返回每个属性中的值在每个类中出现的概率
def TrainNB(DataSet,label):
    SampleNum=len(DataSet)
    classProb={}
    classCount={}
    for row in DataSet:
        classCount[row[-1]]=classCount.setdefault(row[-1],0)+1
    for k in classCount.keys():
        classProb[k]=classCount[k]/SampleNum  #每个类出现的概率
        
    ProbSample={}
    for la in label:
        adrr=label.index(la)
        ProbSample[la]=ConProb(DataSet,adrr)
    return (ProbSample,classProb)



##classfy
def classify(ProbSample,classProb,testData,testLabel):
    maxConP=0.0
    reClass=''
    for k in classProb.keys():
        conP=1.0
        #print(k)
        for la in testLabel:
            flag=testLabel.index(la)
           # print(la)
            conP=conP*ProbSample[la][k][testData[flag]]
            
        conP=conP*classProb[k]
        if(maxConP<conP):
            
            maxConP=conP
            reClass=k
    return(reClass)            
        
test,p=TrainNB(data,la)
#print(test)
#print(p)
result=classify(test,p,[1,1],la)
print("testResult:",result)