文本内容分析与信息提取技术详解
1. 电影方面的筛选与提取
在处理特定数据时,为了清理之前步骤的结果,采用了与提取限定词时相同的三重过滤程序。不过,与之前不同的是,此次重点关注名词,因为期望识别的电影方面和属性大多属于名词词性。对于词频统计和停用词处理,分别采用了之前相应步骤的方法。
具体操作步骤如下:
1. 收集文档中的普通名词和专有名词:
nouns = unique(details.Token(details.PartOfSpeech=='noun'));
- 对选定的电影方面进行去重处理:
[selected3_asp,~,idx_asp] = unique(string(matches3_asp));
- 统计词频并筛选出高频词,同时去除停用词:
counts_asp = hist(idx_asp,length(selected3_asp));
frequent_asp = selected3_asp(counts_asp>1);
frequent_asp = setdiff(frequent_asp,stopWords);
- 取交集得到最终筛选后的电影方面:
超级会员免费看
订阅专栏 解锁全文

6911

被折叠的 条评论
为什么被折叠?



