情感挖掘中的文本处理与数据集应用
1. 文本处理中的词汇与情感分析
在情感检测任务中,识别承载情感的词汇十分关键。我们花费了大量时间研究单个词汇,包括在文本中查找标记、将词汇分解为更小的元素、观察词部分边界处的拼写变化,以及处理那些在词汇组合成复合词时不使用空格分隔标记的语言所产生的问题。
1.1 复合词的情感权重
即便在英语中,像“crime - prevention”和“greenhouse - gases”这样具有高 PMI 分数的复合词,其承载的情感权重可能与组成部分的情感不同。例如:
>>> pmiTable['crime - prevention']
(10.540598239864938, 202)
>>> pmiTable['greenhouse - gases']
(12.322885857554724, 120)
这表明,即使在英语中,研究特别频繁的复合词的情感权重也是有价值的,对于其他语言而言,这可能更为重要。
1.2 文本处理的关键问题
对于大多数自然语言处理(NLP)任务,找到词汇之间的关系与找到词汇本身同样重要。但对于寻找短非正式文本的一般情感基调这一任务,情况可能并非如此。这里有两个主要问题需要解答:
- 是否为词汇之间分配一组关系有助于情感检测?
- 是否可以为非正式文本的元素分配关系?
2. 文本预处理:词干提取、标记和解析
2.1 正常文本的句子结构
正常文