机器学习实战笔记（五）：基于概率论的分类方法：朴素贝叶斯（Python3 实现）

最新推荐文章于 2024-03-01 15:50:48 发布

max_bay

最新推荐文章于 2024-03-01 15:50:48 发布

阅读量736

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战笔记文章标签：机器学习实战朴素贝叶斯 python

本文链接：https://blog.youkuaiyun.com/cqulun123/article/details/80549779

本文介绍了基于贝叶斯决策理论的分类方法，重点讲解了如何使用朴素贝叶斯进行文档分类，特别是用Python进行文本分类以过滤垃圾邮件。通过实例展示了朴素贝叶斯算法在数据有限情况下的有效性，并提供了完整代码。

1 基于贝叶斯决策理论的分类方法

1.1 朴素贝叶斯

优点：在数据较少的情况下仍然有效，可以处理多类别问题。

缺点：对于输入数据的准备方式较为敏感。

适用数据类型：标称型数据。

2 使用朴素贝叶斯进行文档分类

2.1 朴素贝叶斯的一般过程
(1) 收集数据：可以使用任何方法。本章使用RSS源。
(2) 准备数据：需要数值型或者布尔型数据。
(3) 分析数据：有大量特征时，绘制特征作用不大，此时使用直方图效果更好。
(4) 训练算法：计算不同的独立特征的条件概率。
(5) 测试算法：计算错误率。
(6) 使用算法：一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器，不一定非要是文本。

3 使用 Python 进行文本分类

3.1 准备数据：从文本中构建词向量

# 词表到向量的转换函数
def load_data_set():
    # 词条切分后的文档集合，列表每一行代表一个文档
    posting_list = [['my', 'dog', 'has', 'flea',
                     'problems', 'help', 'please'],
                    ['maybe', 'not', 'take', 'him',
                     'to', 'dog', 'park', 'stupid'],
                    ['my', 'dalmation', 'is', 'so', 'cute',
                     'I', 'love', 'him'],
                    ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                    ['my', 'licks', 'ate', 'my', 'steak', 'how',
                     'to', 'stop', 'him'],
                    ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    # 1 代表侮辱性文字， 0代表正常言论
    class_vec = [0, 1, 0, 1, 0, 1]
    return posting_list, class_vec


# 创建一个包含在所有文档中出现的不重复词的列表
def create_vocab_list(data_set):
    vocab_set = set([])  # 创建一个空集
    for document in data_set:
        vocab_set = vocab_set | set(document)  # 创建两个集合的并集
    return list(vocab_set)


def set_of_words_to_vec(vocab_list, input_set):
    """
    该函数的输入参数为词汇表及某个文档，输出的是文档向量，向量的每一元素为1或0，
    分别表示词汇表中的单词在输入文档中是否出现。函数首先创建一个和词汇表等长的
    向量，并将其元素都设置为0 。接着，遍历文档中的所有单词，如果出现了词汇表中
    的单词，则将输出的文档向量中的对应值设为1。一切都顺利的话，就不需要检查某
    个词是否还在vocab_list中。
    """
    return_vec = [0] * len(vocab_list)
    for word in input_set:
        if word in vocab_list:
            return_vec[vocab_list.index(word)] = 1
        else:
            print("the word: %s is not in my Vocabulary!" % word)
    return return_vec

3.2 训练算法：从词向量计算概率

该函数的伪代码如下：
计算每个类别中的文档数目
对每篇训练文档：
对每个类别：
如果词条出现在文档中→ 增加该词条的计数值
增加所有词条的计数值
对每个类别：
对每个词条：
将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率

# 朴素贝叶斯分类器训练函数
def train_nb0(train_matrix, train_category):
    # 获取文档矩阵中文档的数目
    num_train_docs = len(train_matrix)
    # 获取词条向量的长度
    num_words = len(train_matrix[0])
    p_abusive = s