机器学习实战笔记(五):基于概率论的分类方法: 朴素贝叶斯(Python3 实现)

本文介绍了基于贝叶斯决策理论的分类方法,重点讲解了如何使用朴素贝叶斯进行文档分类,特别是用Python进行文本分类以过滤垃圾邮件。通过实例展示了朴素贝叶斯算法在数据有限情况下的有效性,并提供了完整代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 基于贝叶斯决策理论的分类方法

1.1 朴素贝叶斯

优点:在数据较少的情况下仍然有效,可以处理多类别问题。

缺点:对于输入数据的准备方式较为敏感。

适用数据类型:标称型数据。

2 使用朴素贝叶斯进行文档分类

2.1 朴素贝叶斯的一般过程
(1) 收集数据:可以使用任何方法。本章使用RSS源。
(2) 准备数据:需要数值型或者布尔型数据。
(3) 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
(4) 训练算法:计算不同的独立特征的条件概率。
(5) 测试算法:计算错误率。
(6) 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。

3 使用 Python 进行文本分类

3.1 准备数据:从文本中构建词向量 

# 词表到向量的转换函数
def load_data_set():
    # 词条切分后的文档集合,列表每一行代表一个文档
    posting_list = [['my', 'dog', 'has', 'flea',
                     'problems', 'help', 'please'],
                    ['maybe', 'not', 'take', 'him',
                     'to', 'dog', 'park', 'stupid'],
                    ['my', 'dalmation', 'is', 'so', 'cute',
                     'I', 'love', 'him'],
                    ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                    ['my', 'licks', 'ate', 'my', 'steak', 'how',
                     'to', 'stop', 'him'],
                    ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 1 代表侮辱性文字, 0代表正常言论
    class_vec = [0, 1, 0, 1, 0, 1]
    return posting_list, class_vec


# 创建一个包含在所有文档中出现的不重复词的列表
def create_vocab_list(data_set):
    vocab_set = set([])  # 创建一个空集
    for document in data_set:
        vocab_set = vocab_set | set(document)  # 创建两个集合的并集
    return list(vocab_set)


def set_of_words_to_vec(vocab_list, input_set):
    """
    该函数的输入参数为词汇表及某个文档,输出的是文档向量,向量的每一元素为1或0,
    分别表示词汇表中的单词在输入文档中是否出现。函数首先创建一个和词汇表等长的
    向量,并将其元素都设置为0 。接着,遍历文档中的所有单词,如果出现了词汇表中
    的单词,则将输出的文档向量中的对应值设为1。一切都顺利的话,就不需要检查某
    个词是否还在vocab_list中。
    """
    return_vec = [0] * len(vocab_list)
    for word in input_set:
        if word in vocab_list:
            return_vec[vocab_list.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return return_vec
3.2 训练算法:从词向量计算概率
该函数的伪代码如下:
计算每个类别中的文档数目
对每篇训练文档:
对每个类别:
如果词条出现在文档中→ 增加该词条的计数值
增加所有词条的计数值
对每个类别:
对每个词条:
将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率
# 朴
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值