文本分类的事件模型 Event Models for Text Classification
我们之前介绍了多元伯努利事件模型Multi-variate Bernoulli Event Model,这一方法使用向量{x1,x2,···}表示输入文本,向量的长度为字典的长度,xi=1表示字典中第i个次出现,反之则表示不出现,我们之前讨论的问题都基于这个假设。
现在我们介绍多项式事件模型Multinomial Event Model,其向量{x1,x2,···}也表示输入的文本,但其长度为输入文本的长度,xi的值表示第i个单词在字典中的位置,此时可将似然函数写为
为使似然函数最大,对参数的最大似然估计为
使用我们上一讲中介绍的拉普拉斯平滑,可将参数估计变为