相关背景:
这篇论文发表于2002,那时大量的文本分类研究都是对文章的主题分类,例如判断一篇文章是体育类还是财经类。然而随着在线评论的网站大肆兴起,为了提供更言简意赅的信息,就需要判断人们针对某件事发表言论的是肯定的还是否定的,即情感分类。
当前研究:
传统的对文章进行情感分类的做法有:
- 使用统计学的方法判断文章的来源:例如考虑文章的作者,出版商以及作者所处的阶层。
- 一个相关的领域是确定文章的类型,然而这些方法只能确定文章是用来表达观点的,但无法识别出究竟是什么观点。
- 大多数情感分类的研究都是基于一定的先验知识,通过人工来构建词表。然而实验表明依靠人的主观经验实现情感分析,效果并不是很好。
Motivation:
这些方法要么是基于统计学,要么人为构建词表,然而效果并不尽如人意,因此这篇文章使用三种不考虑先验知识的有监督的机器学习的方法(朴素贝叶斯,最大熵和支持向量机)测试在电影评论中情感分类的效果。
Baseline1:两个人分别给出表达积极和消极情感的词汇,然后在1400条评论集上测试分类的准确率。
Baseline2:词汇表由人工和语料共同构建,共14个词。

最低0.47元/天 解锁文章
548

被折叠的 条评论
为什么被折叠?



