文本分类:从特征提取到朴素贝叶斯分类器训练
1. 文本分类基础
文本分类是通过从标记的特征集(即训练数据)中学习,进而对未标记的特征集进行分类的过程。标记的特征集是形如 (feat, label) 的元组,而未标记的特征集则只有 feat 。特征集本质上是特征名称到特征值的键值映射。在文本分类中,特征名称通常是单词,特征值都为 True 。由于文档中可能存在未知单词,且可能的单词数量非常大,因此未在文本中出现的单词会被省略,而不是以 False 值包含在特征集中。
一个实例是特征集的另一种说法,它代表特征组合的一次出现。标记的特征集是带有已知类别标签的实例,可用于训练或评估。总结来说, (feat, label) 是标记的特征集或标记的实例, feat 是特征集,通常表示为键值字典。当 feat 没有关联的标签时,它也被称为未标记的特征集或实例。
2. 词袋特征提取
文本特征提取是将单词列表转换为分类器可用的特征集的过程。NLTK 分类器期望特征集为字典形式,因此需要将文本转换为字典。词袋模型是最简单的方法,它从实例的所有单词中构建单词存在特征集。该方法不关心单词的顺序或出现次数,只关心单词是否出现在单词列表中。
2.1 实现词袋模型
可以使用以下代码将单词列表转换为字典,其中每个单词作为键,值为 True :
超级会员免费看
订阅专栏 解锁全文
1059

被折叠的 条评论
为什么被折叠?



