14、情感挖掘中的文本处理与数据集应用

情感挖掘中的文本处理与数据集应用

1. 文本处理中的词汇与情感分析

在情感检测任务中,识别承载情感的词汇十分关键。我们花费了大量时间研究单个词汇,包括在文本中查找标记、将词汇分解为更小的元素、观察词部分边界处的拼写变化,以及处理那些在词汇组合成复合词时不使用空格分隔标记的语言所产生的问题。

1.1 复合词的情感权重

即便在英语中,像“crime - prevention”和“greenhouse - gases”这样具有高 PMI 分数的复合词,其承载的情感权重可能与组成部分的情感不同。例如:

>>> pmiTable['crime - prevention']
(10.540598239864938, 202)
>>> pmiTable['greenhouse - gases']
(12.322885857554724, 120)

这表明,即使在英语中,研究特别频繁的复合词的情感权重也是有价值的,对于其他语言而言,这可能更为重要。

1.2 文本处理的关键问题

对于大多数自然语言处理(NLP)任务,找到词汇之间的关系与找到词汇本身同样重要。但对于寻找短非正式文本的一般情感基调这一任务,情况可能并非如此。这里有两个主要问题需要解答:
- 是否为词汇之间分配一组关系有助于情感检测?
- 是否可以为非正式文本的元素分配关系?

2. 文本预处理:词干提取、标记和解析

2.1 正常文本的句子结构

正常文

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值