情感分析与大数据云计算安全
1. 情感分析实验成果
1.1 特征挖掘
在情感分析实验中,使用电影数据集时,第 4 和第 5 段的表现优于其他段,从相关图表和表格中可以看出。在该实验里,第 4 段获得了更高的准确率,并且特征数量减少到了 9.4%。同时,词形还原的影响在实验中并不明显。而使用 OHSUMED 数据集时,第 1 和第 4 段表现更佳,同样第 4 段获得较高准确率且特征数量减少到 9.4%。由此可以推断,第 4 段受词形还原影响,减少了特征数量,并且提高了计算速度。
1.2 特征组合
建议的方法主要是将其他特征与现有特征相结合,以提高文本分类模型的准确性,也就是增加正负副词和形容词的浓度或数量。通过电影数据集计算所有分类器从第 1 段到第 5 段的准确率平均值,可以发现特征组合提高了准确率,在以 RBF 为核的 SVM 分类器(SVM - RBF)中更为显著。使用 OHSUMED 数据集时,第 1 和第 4 段效果最佳,词形还原略微提高了平均准确率。而且,第 1 - 5 段在特征组合且无词形还原的情况下表现更好。
1.3 维度降低
实验表明,使用电影和 OHSUMED 数据集时,维度降低后的准确率表现与未降低时几乎相同。对于电影数据集,维度降低后再组合其他特征能取得更好的性能。在情感文本挖掘中测试 SVD 然后 PCA 可以减少实现时间。实验在特定环境下进行,涉及五个分类器,其中四个分类器能减少实现时间,但第 5 段并非如此。因此,建议的方法中,特征组合和维度降低是可行的。
以下是 OHSUMED 数据集维度降低的实验结果表格:
| ADD ATT. | SVM - R
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



