基于词汇方法和模糊逻辑的情感分析及实时通信协议对比
基于词汇方法和模糊逻辑的情感分析
在情感分析领域,一种结合词汇方法和模糊逻辑的创新方法被提出,旨在更精准地分析文本中的情感倾向。
数据集特征
该研究的数据来源于谷歌、微软和亚马逊的官方推特账户,用户针对这些公司提供的网络服务发布了9421条推文。在预处理阶段,会去除推文中的标点符号、停用词、URL、数字、外来词和推特关键词,然后进行分词处理。接着提取特征,包括使用SentiWordNet词典和SentiStrength词典获取单词的极性,同时考虑表情符号、副词、强调词、否定词、标签、感叹号和转发等因素。
- SentiWordNet极性 :用[-1, 1]范围内的数字表示,对输出结果有线性影响,-1表示“非常负面”,1表示“高度正面”。
- SentiStrength极性 :取值范围是[-5, 5],同样对结果有线性影响。
- 表情符号 :分为愉悦、咧嘴笑、享受、假笑、困惑和眨眼六组,每组对输出的影响可能是积极、消极或中性。
- 强调词等 :如强调词、副词、感叹号和否定词,对输出结果的影响也有积极、消极或中性三种情况。
- 标签影响 :根据使用该标签的推文中积极推文的比例计算,积极标签下超过60%的推文为积极,消极标签下超过或等于60%的推文为负面,其余为中性。
- 点赞和转发 :当带有积极极性词汇的推文获得200次以上的转发或点赞时,该推文