对一条评论的分析可以这样建模:
E 表示实体,可能是一个事件或者被评论的产品
A 表示实体的某个方面,比如 屏幕是手机的一个方面
表达式 对E 或 A的描述
观点持有人
发表时间
一条文本评论往往可以通过上述5个元素来描述。
分类算法:
针对某个词,判断该词表达的情感是正面的还是负面的:通过预先设置一个表达肯定语态的典型词和一个表达否定语态的典型词,然后计算该词 与这两个典型词的 统计相关性(PMI),然后比较 两个PMI 的大小或者比值来判断这个词语的情感是正面的还是负面的。见书344页。
针对句子,判断该句表达的情感是正面的还是负面的或发掘其中的观点:根据词性等信息套用上面的模型找出句子的各个元素,利用预设数据判断句子的情感或发掘其中的观点。预设的数据一般是某个表达式,当句子中的表达式跟预设的表达式匹配时就能判断语态了。同时可以利用连词来识别预设数据不包括的表达式,并不停地扩充预设数据,详见书356页。

本文介绍了一种基于实体、方面、观点表达、观点持有者及发表时间五个元素的情感分析模型,用于评论情感倾向的判断。此外,还探讨了两种情感分类算法:一种针对词级情感分析,另一种针对句子级情感分析。
1257

被折叠的 条评论
为什么被折叠?



