文本分类与朴素贝叶斯分类器训练
1. 文本分类基础
文本分类通过从标记的特征集(即训练数据)中学习,来对未标记的特征集进行分类。标记的特征集是形如 (feat, label) 的元组,未标记的特征集则只有 feat 。特征集本质上是特征名称到特征值的键值映射,在文本分类中,特征名称通常是单词,值都为 True 。由于文档可能包含未知单词,且可能的单词数量众多,所以未在文本中出现的单词会被省略,而不是以 False 值包含在特征集中。
一个实例是特征集的另一种说法,它代表特征组合的一次出现。标记的特征集是带有已知类别标签的实例,可用于训练或评估。
2. 词袋特征提取
文本特征提取是将单词列表转换为分类器可用的特征集的过程。NLTK 分类器期望的是字典样式的特征集,因此需要将文本转换为字典。词袋模型是最简单的方法,它从实例的所有单词构建单词存在特征集,不考虑单词顺序和出现次数,只关注单词是否存在于单词列表中。
以下是实现词袋模型的代码:
def bag_of_words(words):
return dict([(word, True) for word in words])
from featx import bag_of_words
print(bag_of_words(['the', 'quick', 'brown', 'fox']))
输出结果为:
{'
超级会员免费看
订阅专栏 解锁全文
1358

被折叠的 条评论
为什么被折叠?



