新闻文章中争议性话题及子话题的识别与分析
1. 引言
人们天生对新闻文章中的争议性话题和社会事件感兴趣。与自然语言处理领域中常分析的观点不同,情感的定义更为广泛,涵盖了判断、评价、情感状态或情感交流等。情感分析对于政府、企业和个人都至关重要,政府可借此了解民意,企业能分析评论改进产品,个人则想知晓他人对感兴趣话题的看法。
过去的研究主要集中在识别主观句子或文档、确定极性值以及找出情感持有者这三个任务上。而本文的重点是通过情感信息识别新闻文章中的争议性话题及其子话题。我们假设争议性话题会引发不同类型的情感,相关子话题则是引发特定情感的原因。
2. 关键概念定义
- 争议性话题 :可作为搜索引擎查询的文本,能引发冲突性的情感或观点。在本文中,限定为名词或动词短语,例如“阿富汗战争”。
- 子话题 :与争议性话题有意义关联且从属的实体或概念,是使话题具有争议性的原因或因素。本文中,子话题单位为名词短语,如“军队”可作为“阿富汗战争”的子话题。表达观点或采取行动的人也可作为子话题。
- 情感 :由描述现实世界实体或抽象概念的文本引发的情感状态,可与评价、判断、赞成/反对等相关。情感有正、中、负三种极性,如关于“阿富汗战争”的主观意见和士兵、平民死亡的报道都会引发情感。
- 情感线索 :在句子中引发积极或消极情感的单词或短语,可能依赖或独立于领域。一些领域独立的线索可在如SentiWordNet这样的词库中找到,例如“悲伤”或“死亡”可作为“阿富汗