27、文本分类与朴素贝叶斯分类器训练

t8u9v0

于 2025-11-05 12:22:12 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏：用Python玩转自然语言处理文章标签：文本分类朴素贝叶斯分类器词袋模型

本文链接：https://blog.youkuaiyun.com/t8u9v0/article/details/155057745

用Python玩转自然语言处理专栏收录该内容

42 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

文本分类与朴素贝叶斯分类器训练

1. 文本分类基础

文本分类通过从标记的特征集（即训练数据）中学习，来对未标记的特征集进行分类。标记的特征集是形如 (feat, label) 的元组，未标记的特征集则只有 feat 。特征集本质上是特征名称到特征值的键值映射，在文本分类中，特征名称通常是单词，值都为 True 。由于文档可能包含未知单词，且可能的单词数量众多，所以未在文本中出现的单词会被省略，而不是以 False 值包含在特征集中。

一个实例是特征集的另一种说法，它代表特征组合的一次出现。标记的特征集是带有已知类别标签的实例，可用于训练或评估。

2. 词袋特征提取

文本特征提取是将单词列表转换为分类器可用的特征集的过程。NLTK 分类器期望的是字典样式的特征集，因此需要将文本转换为字典。词袋模型是最简单的方法，它从实例的所有单词构建单词存在特征集，不考虑单词顺序和出现次数，只关注单词是否存在于单词列表中。

以下是实现词袋模型的代码：

def bag_of_words(words):
    return dict([(word, True) for word in words])

from featx import bag_of_words
print(bag_of_words(['the', 'quick', 'brown', 'fox']))

输出结果为：