基于本体的网络用户情绪挖掘模型解析
1. 特征选择与预处理
在进行网络用户情绪挖掘时,特征选择与预处理是关键的第一步。为了对特征序列进行有效处理,我们采用了特定的归一化方法。具体操作是,首先从每个特征序列中减去其最小值,然后将得到的差值除以该属性的取值范围,最后再乘以 10。
接下来,使用 F - score 这一特征选择过滤方法来衡量不同类别的区分度。对于特征向量 $x_k$($k = 1, 2, \cdots, m$),若高 valence 和低 valence 的数量分别为 $n_{highvalence}$ 和 $n_{lowvalence}$($n_{highvalence} + n_{lowvalence} = m$),则第 $i$ 个特征在 valence 维度上的 F - score 定义如下:
[
F(i) \equiv \frac{(x_{(highvalence)i} - x_i)^2 + (x_{(lowvalence)i} - x_i)^2}{\frac{1}{n_{highvalence}-1}\sum_{k = 1}^{n_{highvalence}}(x_{(highvalence)k,i} - x_{highvalence}i)^2 + \frac{1}{n_{lowvalence}-1}\sum_{k = 1}^{n_{lowvalence}}(x_{(lowvalence)k,i} - x_{(lowvalence)i})^2}
]
其中,$x_i$ 是第 $i$ 个特征序列的平均值,$x_{(highvalence)i}$ 是被归类为高 valence 的第 $i$ 个特征序列的平均值,$x_{(lowvalence)i