基于主题词库扩展的Twitter情感分析
1. 引言
在情感分析领域,有多种方法可用于处理不同领域的分类问题。一些方法不需要目标领域的标注数据,例如Blitzer等人提出的结构对应学习(SCL)算法和Pan等人的降维方法。这些方法通常利用源领域和新领域之间的共同特征来建立知识转移的联系。
为了使用基于词库的分类器进行特定领域的分类,也开发了多种方法。Ponomareva等人使用图来建模一组有标签和无标签的文档,并根据最近的文档更新无标签文档的情感分数,但这种方法在文档级别操作,对人类用户来说分类过程不再透明。特定领域的词库扩展是使基于词库的分类器适应不同领域的另一种方法,不同的研究者提出了不同的实现方式。
虽然表情符号已用于Twitter情感分析,点互信息(PMI)计算也用于构建意见词词库,但目前还没有研究使用表情符号作为参考标记进行基于PMI的特定领域扩展,并且在计算PMI时,现有研究没有考虑否定处理。
2. 基于表情符号的情感词库扩展
2.1 分类框架
本研究主要关注基于词库的分类器,因其在不同领域的性能稳定且分类过程透明,但也给出了机器学习方法的分类结果作为参考。
- SentiStrength(SS) :这是一种先进的基于词库的分类器。它包含增强词列表、表情符号列表、习语列表、否定词列表、疑问词列表、俚语列表和一般意见词列表,并应用语言规则来计算整体情感极性。意见词分数为整数,负数范围是[-5, -1],正数范围是[1, 5],-1和1表示中性词。其核心是一个包含298个积极和465个消极术语的一般意见词列表,部分包含通配符。在扩展SentiStrength
超级会员免费看
订阅专栏 解锁全文
469

被折叠的 条评论
为什么被折叠?



