博客情感识别与网页内容特征分析
博客情感识别模型
在博客情感识别领域,有多种模型可供使用,下面为你详细介绍几种常见模型及其特点。
线性池化模型
线性池化模型是一种基础的整体方法。其核心公式为:
$P(w_i|C_j) = α_1 × P_1(w_i|C_j) + α_2 × P_2(w_i|C_j)$
其中,$P_1(.)$ 和 $P_2(.)$ 分别表示使用词典极性模型和朴素贝叶斯模型计算的意见词 $w_i$ 在文档情感类别 $C_j$($C_j \in {+, -}$)中的概率。权重 $α_1$ 和 $α_2$ 通过以下Sigmoid函数计算:
$α_i = log \frac{1 - err_i}{err_i}$
这里的 $err_i$($i = 1, 2$)是每个模型的错误率,并且 $α_i$ 经过归一化处理,使得它们的总和为1。线性池化得到的 $P(w_i|C_j)$ 用于朴素贝叶斯模型来预测文档的情感。然而,实验表明,线性池化模型在文档情感预测的准确性上并没有比原始朴素贝叶斯模型有显著提升。
极性朴素贝叶斯模型
极性朴素贝叶斯模型认为,一个意见词出现在某个情感类别中的概率,等同于该词本身出现在该类别中且该词在该类别中恢复其标注的先验极性的概率。对于文档 $D$ 和文档情感类别 $C_j$($C_j \in {+, -}$),对于任何意见词 $w_i \in D$ 及其相关极性 $p_i \in {w^+, w^-}$,假设 $P(w_i|C_j)$ 和 $P(p_i|C_j)$ 相互独立,且意见词之间也相互独立,则有:
$P(D|C_j) = \prod_{i} P(w_
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



