29、电影评论内容的极性分析与特征挖掘

电影评论内容的极性分析与特征挖掘

1. 极性分析的重要结论

通过基于词频和分布的数学模型,特别是向量空间模型方法,能够对观点性内容的极性进行区分。并且,模型生成的面向领域和面向极性的表示维度的区分能力似乎相互独立。此外,至少对于所考虑的特定类型文本数据,极性区分比领域区分更具挑战性。

2. 极性估计

在分析观点性内容时,重要任务包括极性检测、强度估计、主观性检测和情感测量。这里主要关注前两个任务。极性检测是识别正负两个极性类别,而强度估计是衡量内容的正负程度。极性检测是二元分类问题,强度估计则是离散多类别分类问题或连续回归问题。

2.1 数据集

使用来自IMDb集合的极性数据集v2.0,包含1000条正面和1000条负面电影评论。需从康奈尔大学网站获取该数据集。

2.2 数据预处理
% preprocesses and prepares the 1000 positive reviews
>> dirname = "review_polarity/txt_sentoken/pos/";
>> filelist = dir(dirname); counter = 0;
>> for k=1:length(filelist)
       if filelist(k).isdir==0
           counter = counter+1;
           temp = string(evalc('type(dirname+filelist(k).name)'));
        
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值