电影评论内容的极性分析与特征挖掘
1. 极性分析的重要结论
通过基于词频和分布的数学模型,特别是向量空间模型方法,能够对观点性内容的极性进行区分。并且,模型生成的面向领域和面向极性的表示维度的区分能力似乎相互独立。此外,至少对于所考虑的特定类型文本数据,极性区分比领域区分更具挑战性。
2. 极性估计
在分析观点性内容时,重要任务包括极性检测、强度估计、主观性检测和情感测量。这里主要关注前两个任务。极性检测是识别正负两个极性类别,而强度估计是衡量内容的正负程度。极性检测是二元分类问题,强度估计则是离散多类别分类问题或连续回归问题。
2.1 数据集
使用来自IMDb集合的极性数据集v2.0,包含1000条正面和1000条负面电影评论。需从康奈尔大学网站获取该数据集。
2.2 数据预处理
% preprocesses and prepares the 1000 positive reviews
>> dirname = "review_polarity/txt_sentoken/pos/";
>> filelist = dir(dirname); counter = 0;
>> for k=1:length(filelist)
if filelist(k).isdir==0
counter = counter+1;
temp = string(evalc('type(dirname+filelist(k).name)'));
超级会员免费看
订阅专栏 解锁全文
56

被折叠的 条评论
为什么被折叠?



