根据公式:

可以得出:

这里进行计算时,只需要计算分子,比较大小,因为分母只是对数值有影响,对两个数的比较不会产生影响
import numpy as np
"""创建数据集"""
def loadDataSet():
postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], # stupid侮辱类
['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
['stop', 'posting', 'stupid', 'worthless', 'garbage'], # garbage,stupid侮辱类
['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] # stupid侮辱类
classVec

本文探讨了如何使用朴素贝叶斯算法进行侮辱类词汇检测。通过计算特定词汇出现的概率,以此来识别文本是否包含侮辱性内容。尽管在计算中忽略了分母的影响,但这种方法对于判断概率的相对大小仍然有效。
最低0.47元/天 解锁文章
1202

被折叠的 条评论
为什么被折叠?



