词的过滤:删除没有用的词,具体包括两类:
1、停用词过滤,对理解文本没意义的词,a\an
2、出现频率低的词过滤
过滤要考虑自己的应用场景:比如好、很好等词,在情感分析中这些词很重要,在有些地方是作为停用词的
一般是使用别人已经定义好的停用词库,然后进行自己的修改

低频词作用不大,还有可能是噪声,所以没必要考虑

stemming 英文需要标准化
词的标准化操作有两种:stemming,lemmazation
比如将went\go 转换为go
但是stemming不保证转换出的单词是一个有效的原型,
lemmazation会比stemming严格,转换出的单词必须是单词表存在的

Porter Stemmer
英文文本如何做stemming:https://tartarus.org/martin/PorterStemmer/java.txt

这种stemming的规则是要依靠语言学家的经验来确定的,程序员去把这种规则运用到实际</

最低0.47元/天 解锁文章
667

被折叠的 条评论
为什么被折叠?



