基于pyhton3.6-机器学习实战-朴素贝叶斯代码解释

本文介绍如何利用Python实现朴素贝叶斯分类器,包括数据预处理、特征提取、模型训练与测试等步骤,并通过实际案例展示其在文本分类任务中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本人是一名数学系研究生,于2017年底第一次接触python和机器学习,作为一名新手,欢迎与大家交流。

我主要给大家讲解代码,理论部分给大家推荐3本书:

《机器学习实战中文版》

《机器学习》周志华

《统计学习方法》李航

以上3本书,第一本是基于python2的代码实现;剩余两本主要作为第一本书理论省略部分的补充,理论大部分都讲得很细。

博客上关于机器学习实战理论解释都很多,参差不齐,好作品也大都借鉴了以上3本书,网上有很多电子版的书。

与其看看一些没用的博客,真心不如以上3本书有收获。

说实话,学习一定要静下心来,切忌浮躁。不懂可以每天看一点,每天你懂一点,天天积累就多了。

操作系统:windows8.1

python版本:python3.6

运行环境:spyder(anaconda)

# -*- coding: utf-8 -*-
"""
Created on Mon Jan  1 17:17:11 2018

@author: Lelouch_C.C
"""

#创建一个简单数据集函数
def loadDataSet():
    postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],   
                 ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                 ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                 ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                 ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                 ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    classVec = [0,1,0,1,0,1]
    #类别标签向量,1代表侮辱性词汇,0代表不是
    return postingList,classVec

#创建一个包含在所有文档中出现的不重复词的列表
def createVocabList(dataSet):
    vocabSet = set([])                      #创建一个空列表
    for document in dataSet:               
        vocabSet = vocabSet | set(document) #取并集
    return list(vocabSet)

#Bayes词集模型/伯努利模型
def setOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)         #初始化一个长为len(vocabList)的0向量
    for word in inputSet:                    #遍历每个词条
        if word in vocabList:                #如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] = 1
            #Bayes袋模型/多项式模型,
        else: print("the word: %s is not in my Vocabulary!" % word)
    return returnVec                 
#Bayes袋模型/多项式模型
def bagOfWords2Vec(vocabList, inputSet):
    returnVec = [0] * len(vocabList)         #初始化一个长为len(vocabList)的0向量
    for word in inputSet:                    #遍历每个词条
        if word in vocabList:                #如果词条存在于词汇表中,则置1
            returnVec[vocabList.index(word)] += 1
    return returnVec                                     
"""
if __name__ =='__main__':
    listOPosts,listClasses=loadDataSet()
    myVocabList=createVocabList(listOPosts)
    print('myVocabList=',myVocabList)
    trainMat = []
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    print('trainMat:\n', trainMat)
#"""
    
#朴素Bayes分类器训练函数
    
import numpy as np

#训练算法:
#朴素贝叶斯分类器训练函数
def trainNB0(trainMatrix,trainCategory):
    """
    参数:trainMatrix经处理的训练矩阵;trainCategory类别标签
    """
    numTrainDocs = len(trainMatrix)          #计算训练的样本数目
    numWords = len(trainMatrix[0])           #计算每篇文档的词条数/特征数
    pAbusive = sum(trainCategory)/float(numTrainDocs)       #文档属于侮辱类的概率
    p0Num = np.ones(numWords); p1Num = np.ones(numWords)    
    #创建numpy.ones数组,词条出现数初始化为1,拉普拉斯平滑
    p0Denom = 2.0; p1Denom = 2.0             #分母初始化为2,拉普拉斯平滑
    for i in range(numTrainDocs):
        if trainCategory[i] == 1:  
            #统计属于侮辱类的条件概率所需的数据,
            p1Num += trainMatrix[i]       
            #在长为len(trainMatrix[0])的全一向量p1Num上统计侮辱类样本每个词条出现的次数总和
            #全一向量p1Num每一个位置对应一个词条,结果为每个词条次数总和加一,p1Num被初始化为一
            p1Denom += sum(trainMatrix[i])  
            #依次统计每个侮辱类样本总共词条出现的次数,然后每次叠加
            #结果为所有样本的词条总和+2,p1Denom被初始化为2
        else:  #统计属于非侮辱类的条件概率所需的数据,同上
            p0Num += trainMatrix[i]
            p0Denom += sum(trainMatrix[i])
    p1Vect = np.log(p1Num/p1Denom)            #侮辱类每个词条对应的条件概率
    #取对数,防止下溢出         
    p0Vect = np.log(p0Num/p0Denom)            #同上
    return p0Vect,p1Vect,pAbusive   

"""
if __name__ == '__main__':
    postingList, classVec = loadDataSet()
    myVocabList = createVocabList(postingList)
    trainMat = []
    for postinDoc in postingList:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc))
    p0V, p1V, pAb = trainNB0(trainMat, classVec)
    print('p0V:\n', p0V)
    print('p1V:\n', p1V)
    print('classVec:\n', classVec)
    print('pAb:\n', pAb)
#"""

#测试算法    
def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):
    """
    函数说明:朴素Bayes分类函数
    参数:vec2Classify - 待分类的词条向量
          p1Vec -侮辱类的条件概率数组
          pClass1 - 文档属于侮辱类的概率
    """
    p1 = sum(vec2Classify * p1Vec) + np.log(pClass1)        
    #对应元素相乘。logA * B = logA + logB,所以这里加上log(pClass1)
    p0 = sum(vec2Classify * p0Vec) + np.log(1.0 - pClass1)      #同上
    if p1 > p0:
        return 1
    else:
        return 0
    
#对所有操作进行封装
def testingNB():
    listOPosts,listClasses = loadDataSet()                      #创建实验样本
    myVocabList = createVocabList(listOPosts)                   #创建词汇列表
    trainMat=[]
    for postinDoc in listOPosts:
        trainMat.append(setOfWords2Vec(myVocabList, postinDoc)) #将实验样本向量化
    p0V,p1V,pAb = trainNB0(np.array(trainMat),np.array(listClasses))        
    #训练朴素贝叶斯分类器
    testEntry = ['love', 'my', 'dalmation']                     #测试样本1
    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))  #测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')                      #执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')                    #执行分类并打印分类结果
    testEntry = ['stupid', 'garbage']                           #测试样本2

    thisDoc = np.array(setOfWords2Vec(myVocabList, testEntry))  #测试样本向量化
    if classifyNB(thisDoc,p0V,p1V,pAb):
        print(testEntry,'属于侮辱类')                      #执行分类并打印分类结果
    else:
        print(testEntry,'属于非侮辱类')                    #执行分类并打印分类结果
"""
if __name__ == '__main__':
    testingNB()
    #输出:['love', 'my', 'dalmation'] 属于非侮辱类
    #      ['stupid', 'garbage'] 属于侮辱类
#"""
    
#示例1:使用朴素Bayes过滤垃圾邮件
#文件解析及完整的垃圾邮件测试函数
import re

#将使用正则将字符串转换为字符列表
def textParse(bigString):                          
    listOfTokens = re.split(r'\W*', bigString)                              
    #将模式匹配项作为切分标志进行字符串切分,re.split第一个参数就是模式匹配项
    #常用:非字母\W、字母\w,非数字\D,数字\d,非空格\S,空格\s...,还可以具体指定其他
    #可选项(与上述模式联合使用):*;重复0或多次,+:重复1或多次,?:重复0或1次
    return [tok.lower() for tok in listOfTokens if len(tok) > 2]            
    #除了单个字母,例如大写的I,其它单词变成小写
·
def spamTest():
    docList = []; classList = []; fullText=[]
    for i in range(1, 26):                         #遍历25个txt文件
        wordList = textParse(open('email/spam/%d.txt' % i, 'r').read())     
        #读取每个垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(1)                        #标记垃圾邮件,1表示垃圾文件
        wordList = textParse(open('email/ham/%d.txt' % i, 'r').read())      
        #读取每个非垃圾邮件,并字符串转换成字符串列表
        docList.append(wordList)
        classList.append(0)                        #标记非垃圾邮件,1表示垃圾文件   
    vocabList = createVocabList(docList)           #创建词汇表,不重复
    trainingSet = list(range(50)); testSet = []    
    #创建存储训练集的索引值的列表和测试集的索引值的列表                       
    for i in range(10):       #从50个邮件中,随机挑选出40个作为训练集,10个做测试集
        randIndex = int(np.random.uniform(0, len(trainingSet)))#随机选取索引值
        testSet.append(trainingSet[randIndex])     #添加测试集的索引值
        del(trainingSet[randIndex])           
        #在训练集列表中删除添加到测试集的索引值
    trainMat = []; trainClasses = []         #创建训练集矩阵和训练集类别标签系向量             
    for docIndex in trainingSet:             #经过删除,现在的trainingSet就剩下训练集
        trainMat.append(setOfWords2Vec(vocabList, docList[docIndex]))       
        #将生成的词集模型添加到训练矩阵中
        trainClasses.append(classList[docIndex])#将类别添加到训练集类别标签系向量中
    p0V, p1V, pSpam = trainNB0(np.array(trainMat), np.array(trainClasses))  
    #训练朴素贝叶斯模型
    errorCount = 0                                  #错误分类计数
    for docIndex in testSet:                        #遍历测试集
        wordVector = setOfWords2Vec(vocabList, docList[docIndex])#测试集的词集模型
        if classifyNB(np.array(wordVector), p0V, p1V, pSpam) != classList[docIndex]:    
            #如果分类错误
            errorCount += 1                         #错误计数加1
            print("分类错误的测试集:",docList[docIndex])
    print('错误率:%.2f%%' % (float(errorCount) / len(testSet) * 100))

"""
if __name__=='__main__':
    spamTest()          #由于用到随机,所以每次结果都可能不同
#"""
    
#使用Naive Bayes分类器从个人广告中获取区域倾向


<think>我们正在查找与Python 3.6兼容的OpenCV-Python版本。根据引用内容,我们可以得到以下信息: 1. 引用[1]提到:opencv is not compatible with python 3. 但这里可能是指早期版本不支持Python3,实际上OpenCV3已经支持Python3。 2. 引用[2]提到:macOS上安装OpenCV 3.2.0和Python 3.6.0,说明OpenCV3.2.0支持Python3.63. 引用[3]提到:OpenCV尚未(官方)支持Python 3.8,但我们的问题是关于Python3.6的,所以我们可以推断OpenCV对Python3.6的支持较好。 因此,我们可以确定OpenCV3.x版本应该支持Python3.6。具体来说,我们可以查看OpenCV-Python在PyPI上的发布历史,以确定哪些版本明确支持Python3.6。 根据OpenCV-Python的发布记录,以下版本与Python3.6兼容: - OpenCV 3.4.x系列:从3.4.0开始支持Python3.6 - OpenCV 4.x系列:从4.0.1开始支持Python3.6(因为OpenCV4.0.0在构建时存在一些问题,通常建议使用4.0.1及以上) 但是,请注意,OpenCV-Python的预编译二进制wheel文件(在PyPI上)通常针对特定的Python版本和操作系统进行编译。因此,我们需要选择为Python3.6编译的版本。 在PyPI上,OpenCV-Python的版本命名规则为: - 对于OpenCV3:opencv-python 3.x.x - 对于OpenCV4:opencv-python 4.x.x 我们可以通过pip安装指定版本的命令来安装兼容Python3.6的版本。例如: - 安装OpenCV3的最新版本(3.4.x): ```bash pip install opencv-python==3.4.18.65 ``` - 安装OpenCV4的早期版本(4.x.x),但需要确保该版本支持Python3.6。根据OpenCV-Python的发布历史,4.0.1到4.3.0之间的版本都支持Python3.6(因为Python3.6在2021年底停止维护,而OpenCV-Python在4.5.x之后可能不再提供Python3.6的wheel,但源码仍可编译)。 因此,推荐以下版本: 1. **OpenCV 3.4.18.65**:这是OpenCV3的最后一个版本,完全支持Python3.6。 2. **OpenCV 4.1.2.30**:这是OpenCV4中一个较稳定的版本,支持Python3.63. **OpenCV 4.2.0.32** 或 **4.3.0.36**:这些版本也支持Python3.6。 注意:如果使用预编译的wheel,需要确保你的操作系统和架构(如Windows、Linux、macOS)有对应的Python3.6的wheel。如果没有,可能需要从源码编译。 **安装方法**: ```bash # 安装OpenCV3的最后一个版本(推荐) pip install opencv-python==3.4.18.65 # 或者安装OpenCV4的某个版本(例如4.1.2.30) pip install opencv-python==4.1.2.30 ``` **验证安装**: ```python import cv2 print(cv2.__version__) ``` 如果输出安装的版本号,则说明安装成功。 **注意事项**: - 如果使用Anaconda,可以通过conda安装:`conda install -c conda-forge opencv=3.4.18` - 如果遇到问题,可能需要安装依赖库(如libgtk2.0-dev等)或从源码编译。 [^1]: 引用自用户提供的引用[1] [^2]: 引用自用户提供的引用[2] [^3]: 引用自用户提供的引用[3] §§相关问题§§ 1. 如何从源码编译OpenCV-Python以支持Python3.6? 2. OpenCV3和OpenCV4的主要区别是什么? 3. 在Python3.6环境下安装OpenCV-Python时常见错误有哪些?</think>### 与 Python 3.6 兼容的 OpenCV-Python 版本指南 根据引用资料分析,OpenCV 对 Python 3.6 的兼容情况如下: #### ✅ 兼容版本推荐 1. **OpenCV 3.x 系列** - 引用[1][2]明确说明 OpenCV3 支持 Python 3.6 - 推荐版本: - `opencv-python==3.4.18.65`(最稳定) - `opencv-python==3.4.16.67` - `opencv-python==3.4.9.33` 2. **OpenCV 4.x 早期版本** - 引用[3]指出 OpenCV 4.4.0 未正式支持 Python 3.8,但向下兼容 Python 3.6 - 兼容版本: - `opencv-python==4.1.2.30` - `opencv-python==4.2.0.32` - `opencv-python==4.3.0.36` #### ⚠️ 安装注意事项 1. **环境配置** - 确保 Python 3.6 为默认版本(引用[4]): ```bash ln -sf /usr/local/python3.6/bin/python3.6 /usr/bin/python3 ln -sf /usr/local/python3.6/bin/pip3.6 /usr/bin/pip3 ``` 2. **依赖安装** - 必须安装编译依赖(引用[2][4]): ```bash # Ubuntu/Debian sudo apt install build-essential cmake libgtk2.0-dev pkg-config sudo apt install libavcodec-dev libavformat-dev libswscale-dev # macOS (Homebrew) brew install cmake pkg-config re2c ``` 3. **安装命令** ```bash # 安装 OpenCV3 最新兼容版 pip install opencv-python==3.4.18.65 # 或安装 OpenCV4 兼容版 pip install opencv-python==4.3.0.36 ``` #### 版本兼容性验证 ```python import cv2 print(cv2.__version__) # 应输出 3.x.x 或 4.1.x-4.3.x print(cv2.__file__) # 检查加载路径 ``` > 注意:避免使用 OpenCV 4.4.0+ 与 Python 3.6 组合(引用[3]),这些版本主要针对 Python 3.8+ 设计[^1][^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值