大新闻媒体数据的情感分析
1. 引言
情感分析(又称意见挖掘)旨在发现公众对其他实体的意见和情感。近年来,随着网络上公众意见、评论和评价的数量呈爆炸式增长,通过互联网获取这些数据的成本却在下降。因此,情感分析不仅成为了一个活跃的研究领域,还被组织和企业广泛应用以获取经济利益。接下来将探讨如何应用大数据技术来跟踪公共新闻媒体对特定主题(如澳大利亚房地产市场)所表达的情感和意见。
1.1 情感分析概述
情感分析或意见挖掘涉及自动分析公众的意见、情感和情绪。传统的意见挖掘方法通常将任务分解为一系列子任务,先提取事实或情感项目,然后将情感分析任务视为监督学习问题(如文本分类)或无监督学习问题。为了提高意见挖掘系统的性能,通常会使用辅助意见词典和手动编码的规则。
1.2 特征向量与表示学习
在基于传统机器学习的意见挖掘问题中,构建特征向量是核心。表示学习算法可以减轻传统特征选择任务的负担,例如通过计算单词出现次数或使用n - 元语言模型,但计算成本很高。同时,在大型训练数据集上,由表示学习生成的高密度特征表示(即分布式表示)通常优于传统的稀疏特征表示,或由传统降维算法(如SVD或TF - IDF)生成的特征表示。
1.3 传统词嵌入的问题
传统的词嵌入方法(如GloVe、CBOW和Skim - gram)侧重于根据单词出现的上下文生成单词的密集向量表示,其关键假设是单词的含义应由其周围的单词来学习。然而,这种假设可能会导致一些自然语言处理任务(如情感分析)出现次优问题,因为对于情感分析任务,更倾向于对“happy”和“unhappy”等单词进行不同的表示。因此,需要特定任务的词嵌入或微调预定义的词嵌
深度学习在媒体情感分析中的应用
超级会员免费看
订阅专栏 解锁全文
7111

被折叠的 条评论
为什么被折叠?



