之前写了一篇文本分类(五),不知道怎么滴没发表成功,csdn连个备份都没有,草稿箱里也没有,真是备受打击!
隔了几天,只好重来......
好,上一篇做到了分词这一步,然后就是取名词和去停用词了。
首先说取名词,一篇文本,里边有好多词是没有用的,尤其对于判断这篇文本是某一类文本的时候。比如形容词,副词,助词什么的,这类词对我们判断文本属于哪一类没有任何作用,只有名词是比较能够代表某一类文本的,所以我们要把名词给取出来,然后用这些个名词去作为某一类文本的特征。停用词也是这个道理,我们看下老师提供的停用词表就知道,停用词也全都是没用的废话。比如:
这个是老师给的停用词表,里边全是没有用的词,我们要把他们去掉。
第一步,取名词。这个当然

在文本分类中,通过分词后,进一步提取名词并去除停用词以提高文本特征的代表性。使用正则表达式匹配以'n'标记的名词,并对照停用词表删除无用词汇,实现文本的有效特征提取。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



