贝叶斯公式
已知:P(X|H),求P(H|X)
贝叶斯例子:
以上是只有一种特征的情况,如果有多个特征的情况下会使得统计量巨大,n个特征,需要计算2n-1次
朴素贝叶斯(假设:特征X1,X2,X3……之间都是相互独立的)
贝叶斯模型
<1>多项式模型
<2>伯努利模型
<3>混合模型
<4>高斯模型
词袋模型(Bag of Words)
BoW忽略文本的语法和语序等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的。BoW使用一组无序的单词来表达一段文字或文档。
例子:
应用领域:自然语言处理(Natural Language Processing)和信息检索(Infomation Retrieval)
TF-IDF算法
某个词TF-IDF值就越大,说明该词对文章的重要性越高,越有可能成为关键词。
TF(Term Frequency)词频
IDF(Inverse Document Frequency)逆文档频率
IDF大小与一个词的常见程度成反比