14、情感挖掘中的文本处理与数据集应用

purple

于 2025-07-15 16:10:57 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏： Python情感分析：从理论到实践文章标签：情感挖掘文本处理数据集应用

本文链接：https://blog.youkuaiyun.com/purple/article/details/149707552

27 篇文章 ¥399.00 ¥499.90

订阅专栏

情感挖掘中的文本处理与数据集应用

在情感检测任务中，识别承载情感的词汇十分关键。我们花费了大量时间研究单个词汇，包括在文本中查找标记、将词汇分解为更小的元素、观察词部分边界处的拼写变化，以及处理那些在词汇组合成复合词时不使用空格分隔标记的语言所产生的问题。

即便在英语中，像“crime - prevention”和“greenhouse - gases”这样具有高 PMI 分数的复合词，其承载的情感权重可能与组成部分的情感不同。例如：

>>> pmiTable['crime - prevention']
(10.540598239864938, 202)
>>> pmiTable['greenhouse - gases']
(12.322885857554724, 120)

这表明，即使在英语中，研究特别频繁的复合词的情感权重也是有价值的，对于其他语言而言，这可能更为重要。

对于大多数自然语言处理（NLP）任务，找到词汇之间的关系与找到词汇本身同样重要。但对于寻找短非正式文本的一般情感基调这一任务，情况可能并非如此。这里有两个主要问题需要解答：
- 是否为词汇之间分配一组关系有助于情感检测？
- 是否可以为非正式文本的元素分配关系？

正常文

了解本专栏