Chapter 3 文档情感分类_Document Sentiment Classification
从本章开始,我们讨论当前的主要研究方向或主题及其核心技术。情感分类可能是研究最广泛的话题(另见综述(Pang和Lee,2008))。其目的是将观点文档分类为表达正面或负面观点或情感。该任务通常也称为文档级情感分类,因为它将整个文档视为基本信息单元。关于该主题的绝大多数研究论文都是对在线评论进行分类。因此,我们也在评论的语境中定义问题,但该定义也适用于其他类似上下文。
**问题定义:**给定评估某一实体的观点文档,确定意见持有者对该实体的总体情感,即确定在五元组的GENERAL方面表示的情感s,五元组如下:
( _ , G E N E R A L , s , _ , _ ) (\_,GENERAL,s,\_,\_) (_,GENERAL,s,_,_)
其中实体 e e e,观点持有者 h h h和时间 t t t已知或无关(无关紧要)。
根据 s s s取值的类型,有两种公式。如果 s s s采用分类值,例如正值和负值,则这是一个分类问题。如果 s s s在给定范围内(例如1到5)采用数值或序数值,则将变为回归问题。
为了确保任务在实践中有意义,现有研究做出了以下隐含假设(Liu, 2010):
**Assumption假设:**情感分类或回归问题假设观点文档

最低0.47元/天 解锁文章
1581

被折叠的 条评论
为什么被折叠?



