转载来源,系列阅读:http://pocore.com/blog/article_495.html
这是一个识别论坛不当言论的案例
步骤一:获得这个问题的全部特征(标称型)
所谓标称型数据:是可以化成0 1表示的数据
用于案例训练的数据如下:
dataSet: [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
获得这个问题的全部特征做法如下
依次循环取得一行
document: ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please']
set化可获取词列表{'please', 'has', 'flea', 'help', 'my', 'problems', 'dog'}
循环每步和上一步获得set取并集
{'please', 'maybe', 'not', 'him', 'to', 'has', 'stupid', 'flea', 'help', 'my', 'problems', 'take', 'park', 'dog'}
...
list化最终得到训练数据的不重复词库如下:
word:['love', 'please', 'not', 'has', 'how', 'stop', 'is', 'cute', 'dog', 'ate', 'worthless', 'I', 'stupid', 'flea', 'dalmation', 'problems', 'take', 'park', 'buying', 'to', 'steak', 'food', 'posting', 'quit', 'so', 'maybe', 'licks', 'him', 'mr', 'my', 'help', 'garbage']
步骤二:实现输入词条得到上一步的词库状态特征表示列表
上一步得到的不重复词库:
vocabList: ['has', 'stop', 'him', 'not', 'take', 'how', 'to', 'dalmation', 'maybe', 'is', 'food', 'steak', 'dog', 'my', 'I', 'stupid', 'posting', 'licks', 'park', 'please', 'worthless', 'problems', 'cute', 'garbage', 'ate', 'flea', 'mr', 'help', 'love', 'quit', 'buying', 'so']
举例要获取词库特征表示列表的输入语句列表表示如下
inputSet: ['dog','stop']

本文详细介绍了朴素贝叶斯分类器的训练过程,包括如何从数据集中获取特征,如何构建特征表示列表,以及如何进行训练。通过案例展示了如何处理训练数据,计算各类别的概率以及单词在类别中的条件概率。最后,讨论了分类器的改进方法,如处理概率为0的问题和词袋模型的局限性。
最低0.47元/天 解锁文章
1373

被折叠的 条评论
为什么被折叠?



