停止词(stop words)

本文对新华网的数十篇文章进行了词频统计分析,筛选出出现频率较高且与文章分类关联度较低的词汇,旨在揭示这些词汇在文本中的作用及如何作为停止词进行过滤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 以下是我对几十篇新华网的一个统计选择为appearCount>50 and possible>04 and possible<0.6

大概意思就是词频每篇一个,与文章的分类没什么影响的词。0.4与0.6是2分类的设置。

 ,    0.534606551921961      ,    w    1880
上    0.505789204468509      上    m    72
将    0.416122543377473      将    d     95
。    0.438038597619069      。    w    837
这    0.449684305887076      这    r      59
和    0.442210167735838      和    c     182
的    0.451497216703526      的    u     1114
新    0.514251730201348      新    a      49
是    0.536917840971011      是    v     249
目前       0.59181281716802 目前       t      51
与    0.480778076503969      与    p     72
还    0.586413572711937      还    d     63
了    0.544980393674803      了    u     204
有    0.52915586479371 有    v     129
多    0.515804441336147      多    m    71
也    0.442874228869804      也    d     78
年    0.476848076889714      年    q     54
都    0.476848076889714      都    d     54
个    0.446178648393815      个    q     88
并    0.459790531520973      并    c     52
不    0.579272271153612      不    d     130
后    0.56452484035225 后    f      48
一    0.524513271289974      一    m    145
问题       0.44237952587004 问题       n     47
进行       0.475353592837728      进行       v     52
社会       0.557587257495806      社会       n     49
但    0.519296679472669      但    c     52
 停止词(应该删除词)在搜索引擎中一般是过滤的。基本上对结果没有影响。
目的是为了提高检索效率和节省空间。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值