以下是我对几十篇新华网的一个统计选择为appearCount>50 and possible>04 and possible<0.6
大概意思就是词频每篇一个,与文章的分类没什么影响的词。0.4与0.6是2分类的设置。
, 0.534606551921961 , w 1880
上 0.505789204468509 上 m 72
将 0.416122543377473 将 d 95
。 0.438038597619069 。 w 837
这 0.449684305887076 这 r 59
和 0.442210167735838 和 c 182
的 0.451497216703526 的 u 1114
新 0.514251730201348 新 a 49
是 0.536917840971011 是 v 249
目前 0.59181281716802 目前 t 51
与 0.480778076503969 与 p 72
还 0.586413572711937 还 d 63
了 0.544980393674803 了 u 204
有 0.52915586479371 有 v 129
多 0.515804441336147 多 m 71
也 0.442874228869804 也 d 78
年 0.476848076889714 年 q 54
都 0.476848076889714 都 d 54
个 0.446178648393815 个 q 88
并 0.459790531520973 并 c 52
不 0.579272271153612 不 d 130
后 0.56452484035225 后 f 48
一 0.524513271289974 一 m 145
问题 0.44237952587004 问题 n 47
进行 0.475353592837728 进行 v 52
社会 0.557587257495806 社会 n 49
但 0.519296679472669 但 c 52
停止词(应该删除词)在搜索引擎中一般是过滤的。基本上对结果没有影响。
目的是为了提高检索效率和节省空间。