论文阅读《ASSESSMENT OF FEATURE SELECTION METRICS FOR SENTIMENT ANALYSES: TURKISH MOVIE REVIEWS》

本文探讨了一种基于支持向量机和朴素贝叶斯分类器的情感分析方法,使用信息增益和卡方作为特征选择指标,对来自土耳其电影评论的数据集进行情感分类,实现了较高的分类精度。

论文地址:ASSESSMENT OF FEATURE SELECTION METRICS FOR SENTIMENT ANALYSES: TURKISH MOVIE REVIEWS

情感分析通常使用电影评论,旅行顾问,商业评级,社交媒体和SMS数据作为实验数据。
这些文本可能包含三种情绪,例如积极,消极和中立。

在本论文中,使用语料库为土耳其电影评论,分类器为支持向量机和朴素贝叶斯,F1分数用于绩效评估。特征选择方法为信息增益和卡方。

在这里插入图片描述

其中,N是样本评论的总数,a是包含该术语的肯定类别的文档数量,b是不包含该术语的正面类别的文档数量,c是包含此术语的负面类别的文档数量 d是否定类别中不包含该术语的文档数。

在这项研究中,电影评论语料库是通过抓取数据源而创建的(www.beyazperde.com),并且我们获得了评论所有者的标注数据。

在这项研究中采用的是更有效的词干提取方法。
被称为“ Zemberek”的土耳其词条还原器提供了两种服务,使他们有更多的机会来控制捕获词根的敏感性。第一个选项是“修复单词”,它可以纠正作者犯的错误,第二个选择是,如果单词不能修复,它可以提供合适的单词。

假设(4.0,4.5,5.0)为正面,(2.5,3.0,3.5)为中立,(0.5,1.0,1.5,2.0)为负面评论。
从三个类别中收集了总计40050条评论,并用于测试和训练。

在第一个实验中,采用二分类(正或负),并在表1中给出了达到的F1分数。

在这里插入图片描述
在这里插入图片描述

在第二个实验中,通过使用产生的分数和采用的方法对选定的特征进行加权,并按三个类别进行分类。另外,在该步骤中,将NB与SVM结合使用以观察分类器方法的效果,所得结果如图2所示。

在这里插入图片描述
实验结果,支持向量机在将电影评论分为两个(正面和负面)类别时实现了83.9%的性能值,并且在通过支持向量机进行三个类别的分类时获得了63.3%的性能值。

Zemberek, an open source NLP framework for Turkish Languages Online Available at: https://code.google.com/p/zemberek/

最近在学习情感分析,所以就想到了多看一些论文。第一次写这个,选了一个很简单的,也没有涉及最新技术,可能写的很烂,多批评指教,谢谢!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值