An architecture for automatic opinion classification in Western online news 西方在线新闻的自动观点分类架构(IEEE2014)
自动情感分析系统架构包含:(1)中英文等价查询表达式的识别;(2)域和语言学知识基的构建;(3)新闻事件的重获;(4)新闻文本的情感分析。工作流包含两个阶段:离线资源的构建,如可比较或并行的语料库和域知识基,在实时处理中被使用;在线新闻文本分析,通过机器学习和数据挖掘技术实现。
出发点:希望基于西方记者发布的新闻提取观点,以得到中国相关的新闻事件的均衡理解。获取和分析针对于中国的海外信息和观点对于更好的电子政务是重要的。
文章实现一个在线新闻报道的自动情感分析系统。它通过终端用户接收中文查询词项作为输入,转换词项为等价的英文表达式(有或没有额外的概念扩展),通过搜索引擎进行传统的信息检索,然后进行基于检索文本的情感分析,返回分析结果。
- 等价表达式的识别
由于自动翻译系统的质量限制,提出更实际的方法建立并行或可比较的语料库,开发一个词语检索在双语语料库中找到等价词。通过参考文献提出的算法建立双语语料库,需要5步:查找候选站点;文件名获取;主机爬虫;双语对扫描;过滤,下载和验证。语言资源如从语料库提取的并行语料和词典离线准备好,没有运行时间的延迟,用到了机器翻译技术。 - 知识基的构建
有两种类型的知识基:域相关的实体;通用目标知识。 - 新闻事实的重获
新闻故事围绕一个主要点展开,其余部分包含支持细节如引用和事实。主要点通常反映新闻报道者或代理商的立场。为了获取整体新闻事实,从不同政治团体的新闻代理收集尽可能多的信息,提取可能的事实重获真实新闻事件。 - 情感分析
情感分析在语言工程学中被看成是分类问题。最终的决策是基于新闻文章中的极性和强度。
选择合理的返回网页:假定N个搜索引擎,每个返回一个网页集合,阈值为
θ
,如果所有返回的页面数超过阈值,网页集合的交集作为结果,如果所有返回的页面数没有达到阈值,并集作为结果。结果的分析基于准确率。系统针对新闻不同部分,采用权重策略。
文章所做的工作是在搜索引擎的终端加入中英文查询转换,对于返回的大量结果文档进行文本分类。
这篇文章感觉主要是自动观点分类的一个应用,对于自动观点分类的具体实现叙述得比较少。