基于相对论观点挖掘的新闻源事实与观点检测方法
1 引言
在当今新闻信息不断涌现的时代,两个问题变得尤为重要:是什么让新闻源具有可信度?哪些是最值得信赖的新闻源?新闻源的可信度主要与可信赖度和专业性相关,其中可信赖度又可通过“是事实性还是观点性”“是否有偏见”“是否区分事实和观点”以及“是否讲述完整故事”等因素来衡量。
本文聚焦于“是事实性还是观点性”这一因素,提出了一种无监督的基于概率词典的观点挖掘技术。该技术的相对论视角有两个重要含义:一是客观性并非能独立计算,而是缺乏正负情感;二是计算正负性时,需找出一个词与英语中普通词汇的差异程度。
实验选用了三种不同的新闻源:社论、《纽约时报》文章和路透社文章。社论是由编辑人员撰写或评估的观点性文章;《纽约时报》文章是常规新闻报道;路透社文章主要是事实性的通讯社报道。实验假设为:社论比《纽约时报》常规文章更具观点性,而《纽约时报》常规文章又比路透社文章更具观点性。
2 相关工作
2.1 观点挖掘方法分类
观点挖掘、情感分析和主观性分析旨在对文本中的观点、情感和主观性进行计算处理。不同的观点挖掘方法可分为机器学习和基于词典的方法,后者包括语料统计和语义方法。
2.2 不同方法的特点
- 机器学习方法 :基于从文档特征向量和已知情感中学习到的模型为文档分配情感分数。文档特征向量可根据词的出现或词频构建。例如,Pang 等人使用朴素贝叶斯、最大熵和支持向量机(SVM)等分类算法,基于词的出现特征预测句子情感,结果表明预测的情感分数优于随机基线,且 SVM 性能更优。
超级会员免费看
订阅专栏 解锁全文
686

被折叠的 条评论
为什么被折叠?



