采用的是乳腺癌威斯康星州(原始)数据集,数据集特征如下:

训练代码如下,我在写的过程中为了让代码逻辑更清晰点,所以损失了一些性能;虽然是多次测试,但测试集并没有随机选取。。。。反正是作业,糊弄过去就行。
import pandas as pd
import random
import time
# 切分训练集和测试集
def randSplit(data):
n = data.shape[0]
m = int(n * random.uniform(0.1, 0.3))
return data, data.sample(m)
# 构建朴素贝叶斯分类器
def gnb_classify(train, test):
truePro = 0
for i in range(train.shape[0]):
if train.values[i, 10] == 2:
truePro += 1
truePro /= train.shape[0] # true的概率
falsePro = 1 - truePro # false的概率
# 统计频率
numContainer = [{
}, {
}, {

本文介绍了一个基于乳腺癌威斯康星州数据集的朴素贝叶斯分类器实现过程。通过划分训练集与测试集,并构建分类器进行多次测试,评估了分类器的准确率。
最低0.47元/天 解锁文章
403

被折叠的 条评论
为什么被折叠?



