停止词,是由英文单词:stop word翻译过来的,原来在英语里面会遇到很多a,the,or等使用频率很多的字或词,如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索 引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢?
在中文网站里面其实也存在大量的stop word,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎 每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。如果我们的网站上存在大量这样的词语,那么相当于浪费了很多资源。
?
?
!
'
"
!
,
。
"
.
-
_
、
。
“
”
《
》
,
:
;
a
about
above
after
again
against
all
am
an
and
any
are
aren’t
as
at
be
because
been
before
being
below
between
both
but
by
can’t
cannot
could
couldn’t
did
didn’t
do
does
doesn’t
doing
don’t
down
during
each
few
for
from
further
had
hadn’t
has
hasn’t
have
haven’t
having
he
he’d
he’ll
he’s
her
here
here

最低0.47元/天 解锁文章
1003

被折叠的 条评论
为什么被折叠?



