1 基于贝叶斯决策理论的分类方法
1.1 朴素贝叶斯优点:在数据较少的情况下仍然有效,可以处理多类别问题。
缺点:对于输入数据的准备方式较为敏感。
适用数据类型:标称型数据。2 使用朴素贝叶斯进行文档分类
2.1 朴素贝叶斯的一般过程(1) 收集数据:可以使用任何方法。本章使用RSS源。
(2) 准备数据:需要数值型或者布尔型数据。
(3) 分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
(4) 训练算法:计算不同的独立特征的条件概率。
(5) 测试算法:计算错误率。
(6) 使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴素贝叶斯分类器,不一定非要是文本。
3 使用 Python 进行文本分类
3.1 准备数据:从文本中构建词向量
# 词表到向量的转换函数
def load_data_set():
# 词条切分后的文档集合,列表每一行代表一个文档
posting_list = [['my', 'dog', 'has', 'flea',
'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him',
'to', 'dog', 'park', 'stupid'],
['my', 'dalmation', 'is', 'so', 'cute',
'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'],
['my', 'licks', 'ate', 'my', 'steak', 'how',
'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
# 1 代表侮辱性文字, 0代表正常言论
class_vec = [0, 1, 0, 1, 0, 1]
return posting_list, class_vec
# 创建一个包含在所有文档中出现的不重复词的列表
def create_vocab_list(data_set):
vocab_set = set([]) # 创建一个空集
for document in data_set:
vocab_set = vocab_set | set(document) # 创建两个集合的并集
return list(vocab_set)
def set_of_words_to_vec(vocab_list, input_set):
"""
该函数的输入参数为词汇表及某个文档,输出的是文档向量,向量的每一元素为1或0,
分别表示词汇表中的单词在输入文档中是否出现。函数首先创建一个和词汇表等长的
向量,并将其元素都设置为0 。接着,遍历文档中的所有单词,如果出现了词汇表中
的单词,则将输出的文档向量中的对应值设为1。一切都顺利的话,就不需要检查某
个词是否还在vocab_list中。
"""
return_vec = [0] * len(vocab_list)
for word in input_set:
if word in vocab_list:
return_vec[vocab_list.index(word)] = 1
else:
print("the word: %s is not in my Vocabulary!" % word)
return return_vec
3.2 训练算法:从词向量计算概率
该函数的伪代码如下:
计算每个类别中的文档数目
对每篇训练文档:
对每个类别:
如果词条出现在文档中→ 增加该词条的计数值
增加所有词条的计数值
对每个类别:
对每个词条:
将该词条的数目除以总词条数目得到条件概率
返回每个类别的条件概率
# 朴