27、文本分类与朴素贝叶斯分类器训练

文本分类与朴素贝叶斯分类器训练

1. 文本分类基础

文本分类通过从标记的特征集(即训练数据)中学习,来对未标记的特征集进行分类。标记的特征集是形如 (feat, label) 的元组,未标记的特征集则只有 feat 。特征集本质上是特征名称到特征值的键值映射,在文本分类中,特征名称通常是单词,值都为 True 。由于文档可能包含未知单词,且可能的单词数量众多,所以未在文本中出现的单词会被省略,而不是以 False 值包含在特征集中。

一个实例是特征集的另一种说法,它代表特征组合的一次出现。标记的特征集是带有已知类别标签的实例,可用于训练或评估。

2. 词袋特征提取

文本特征提取是将单词列表转换为分类器可用的特征集的过程。NLTK 分类器期望的是字典样式的特征集,因此需要将文本转换为字典。词袋模型是最简单的方法,它从实例的所有单词构建单词存在特征集,不考虑单词顺序和出现次数,只关注单词是否存在于单词列表中。

以下是实现词袋模型的代码:

def bag_of_words(words):
    return dict([(word, True) for word in words])

from featx import bag_of_words
print(bag_of_words(['the', 'quick', 'brown', 'fox']))

输出结果为:

{'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值