简介:
假设特征之间相互独立;
计算测试数据点属于每个类别的概率,选择高概率对应的类别;
朴素贝叶斯分类器有两种实现方式:伯努利模型实现和多项式模型实现,这里选用第一种,不考虑词在文档中出现的次数,只考虑出不出现,即假设词是等权重的;
适用范围:
标称型数据(二/多分类)
步骤:
1.从测试文本中构建测试向量,将测试向量中的每个元素和垃圾词汇比较,得到0-1向量;
2.从词向量计算概率
缺点:
1.
优点:
1.在数据较少的情况下仍然有效,可以处理多类别问题;