解析搜索引擎检索式的构建

本文详细解析了搜索引擎检索式构建的过程,强调了关键词在搜索中的关键作用,包括主题关键词和特征关键词的选择,以及如何利用逻辑运算符、通配符和搜索指令来优化检索效果。关键词优化能有效减少误检和漏检,提高搜索精度。同时,文章介绍了布尔逻辑符(与、或、非)以及通配符的使用方法,并列举了多种搜索指令的应用,如标题搜索、网站搜索、链接搜索等,帮助用户更高效地进行网络搜索。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 1、关键词

  关键词是描述搜索内容的关键性词语。网络搜索中的关键词是一个广义的概念,属于非受控自由词,凡是具有实际意义的表达及其书写形式,如字、词、词组、短语和字母、数字、符号、公式等,都可以用作搜索关键词。

  网络搜索,实际上是在搜索引擎的索引数据库中进行匹配检索。搜索引擎并不对其数据库进行可控语言标引,而只是机械地输出与关键词形式匹配的网页,随着数据库规模的不断增长,符合形式匹配条件的结果输出将会越来越多,尽管一些搜索引擎采用了智能分词技术,具有一定程度的概念检索功能,但仍然不可避免地会出现大量的无用信息。在形式匹配的技术条件下,关键词优化是最大限度地消除无用信息的主要方法。关键词在网络搜索中起着“关键”的作用,关键词选择准确与否直接关系到搜索的成败,而成功搜索的标志是在结果列表的首页就能够满足查询需求。

  从形式上看,关键词的数量与结果输出成反比,使用关键词越多结果输出越少,如用“搜索引擎优化”在GOOGLE中搜索,“约有603,000项符合搜索引擎优化的查询结果”、“搜索引擎优化 网站推广”搜索,“约有215,000项符合搜索引擎优化 网站推广的查询结果”、“搜索引擎优化 网站推广 竞价排名”搜索,“约有30,800项符合搜索引擎优化 网站推广 竞价排名 的查询结果”。从语义上分析,关键词的外延越小结果越趋于准确,如用“图书馆参考咨询工作”、“图书馆读者服务工作”等搜索,要比用“图书馆工作”更有实际搜索意义,结果也更加具体、适用。从词间的逻辑关系讲,“与”和“非”(and & not)采用多词限制和无关排除的方法缩小搜索范围,用于提高查准率,如“刘德华and身高and体重and籍贯”、“天龙八部 –电视剧”等。“或”(OR)利用多词扩展的方法扩大搜索范围,如用“刘德华 OR "Andy Lau"”搜索,可以得到较高的查全率。

  准确选择关键词需要从表述方式、行文习惯、书写规则等方面揣度查询内容,力求关键词与内容描述词的一致。由于搜索引擎的形式匹配原理,使用同一概念的不同词语搜索的结果截然不同。例如,用“北京”搜索不会出现“首都”字样,“北京图书馆”找不到“国图”的有关内容,“WTO”与“世界贸易组织”的搜索结果大向径庭等等。因此,必须注意对习惯用语、专业术语、全称、简称、同义词、近义词,以及拼音文字的前缀、后缀的了解和运用,尽可能地提高关键词的形式匹配几率,最大限度地减少误检和漏检。

  关键词可以分为主题关键词和特征关键词。主题关键词是指表述主要搜索内容的必用的词语,不使用主题关键词就不能准确地搜索到特定的内容。特征关键词是指在内容描述中与主题关键词同时出现且位置较近的量词、形容词、名词等进一步说明和限定主题关键词的词语,特征关键词可以有效地缩小搜索范围,使结果排序更加趋前。在搜索实践中经常会遇到这样的情况:即尽管主题关键词选择准确、使用得当,查询内容仍然不在结果首页或前三页之中,这时如果增加使用特征关键词,搜索结果就会明显改善。例如,查找国际象棋有几个棋子,在百度中用“国际象棋 棋子”搜索,有42,600项结果,前几页结果均无明确的答案,而增加特征关键词“个”,以“国际象棋 个棋子”搜索,结果减少至1,270项,结果首页第一项即有“国际象棋共有32个棋子,分为两方,浅色的棋子称为白棋,深色的棋子称为黑棋……”的网页摘要。

  正确选择关键词,需要对查询内容有一定了解,有一个根据搜索结果从模糊到准确的逐步调整关键词的练习过程。例如,查找有关“电动玩具”的英文资料,一般会选择“Electrical toy”搜索,但通过对其搜索结果进行分析,可以发现“Electrically operated toy”、“Battery operated toy”等也是查找“电动玩具”的必用关键词。又如,查找国外“指甲剪生产厂家”的信息,从“"nail scissors" factory”的搜索结果可以了解到,“指甲剪”和“厂家”习惯用“Nail Clippers”和“Manufacturer”表示,使用“"Nail Clippers" Manufacturer”搜索可以更好地满足查询需求。搜索的过程是一个学习和信息甄别的过程,要学会在搜索中选择和提炼关键词,丰富的搜索实践是成为搜索高手的必由之路。

  2、逻辑运算符

  网络搜索中有“与(and)”、“或(or)”、“非(not)”三种逻辑关系,分别用“+”、“OR”、“-”表示,它们称为布尔逻辑符或逻辑运算符。

  “与”关系为“A+B”形式,表示A和B必须同时出现在网页之中;“或”关系为“A OR B”形式,表示结果中,要么有A,要么有B,要么同时有A和B;“非”为“A –B”形式,表示B一定不会出现在搜索结果之中。

  在搜索引擎中,表示“与”关系的“+”通常可以省略,以词间空格代替,或者说,词间空格默认为“and”运算。“或”关系多以“OR”表示,但不同的搜索引擎对其大小写有严格的要求(如在GOOGLE中必须大写),或采用其它的符号表示(如“百度”以“|”表示)。“非”关系用“not”或“and not”表示,减号“-”是“not”运算的唯一符号形式。

  使用逻辑运算符之前,须阅读搜索引擎的“帮助(Help)”文件,确认其支持何种逻辑运算,了解和掌握逻辑符号的形式及其用法。 

  3、通配符 

  通配符(wildcard)是一类键盘字符,用来代替规定的对象。搜索引擎最常用的通配符有星号(*)和问号 (?)等,通常星号(*)表示替代若干字母,问号 (?)表示替代一个字母。

  通配符又可以分为“词间通配符”(partial-word wildcard)和“全词通配符”(full-word wildcard)两种。词间通配符只能代替单词中的一个或几个字母,而不是整个单词;全词通配符用来代替一个单词,而不是单词中的某个或几个字母。

  截词检索(truncation)是网络搜索的常用方法,它使用“词间通配符”,用截断的词的一个局部进行的检索,按截断的位置可分为前截断、中截断和后截断三种,搜索引擎多支持中截断和后截断检索。例如,“wom?n”可以搜索到包含woman、women、womyn、womin等单词的网页,“Comput*”对Computer、Computing、Computation 等以Comput 开头的单词进行搜索。

  Google使用的通配符属于“全词通配符”,通配符为星号(*),一次检索可以使用若干个*。全词通配符虽不及词间通配符常用,但它在实际搜索中的功能是不可忽视和替代的。如解答“How often does Halley's comet appear?”(哈雷彗星多少年出现一次?),用“Halley's comet appears every * years”搜索,可以轻而易举地得到答案:Halley's comet appears every 76 years。

  搜索引擎对截词检索的支持程度和通配符的规定多有不同,了解和使用通配符,请参阅搜索引擎的帮助文件。

  4、搜索指令

  搜索指令是从不同角度限定网络搜索的功能性词语和符号,对搜索结果起着定向和控制的作用。搜索引擎使用不同的搜索指令实现不同的搜索功能,即使是相同或相似的搜索功能也可能采用不同的搜索指令。搜索指令形式的多样化给实际的搜索应用带来一定的困难。在搜索实践中,我们可以按照搜索功能对常用的搜索指令进行区分与归纳,以便于了解、掌握和正确使用搜索指令。

  ⑴、标题搜索(Title Search)

  [title:]AltaVista、AllTheWeb、Inktomi、MSN、一搜……。

  [intitle:] Google、Teoma、yahoo、百度……。

  [allintitle:] Google ……。

  ⑵网站搜索(Site Search)

  [host:] AltaVista……。 

  [hostname:] Yahoo……。

  [site:] Excite、Google、Netscape、Yahoo、Teoma、百度、一搜、中搜……。

  [domain:] Inktomi、HotBot、iWon, LookSmart、MSN、AltaVista、百度、一搜……。

  ⑶、网址搜索(URL Search)

  [url:] AltaVista、Excite、yahoo(需要带http://)、一搜……。

  [url.all:] AllTheWeb、Lycos……。 

  [allinurl:] Google 

  [inurl:] Google、yahoo、Teoma、百度……。

  [originurl:] Inktomi、AOL、GoTo、HotBot、一搜……。 

  [url.domain:] Alltheweb……。

  [url.host:] AllTheWeb、Lycos……。 

  ⑷、链接搜索(Link Search)

  [link:] AltaVista、Google 、yahoo(需要带http://)……。 

  [linkdomain:] Inktomi、AOL、HotBot、iWon、MSN、yahoo、一搜……。

  [link.all:] AllTheWeb、Lycos……。 

  [inlink:] Teoma……。

  [link.extension:] AllTheWeb……。

  ⑸、锚点搜索(Anchor Search)

  [anchor:] AltaVista……。 

  [allinanchor:] Google……。

  ⑹、文件搜索(filetype Search)

  [filetype:文件类型后缀](如PDF、DOC、SWF等)Google、iWon、AOL、Netscape、百度、中搜……。 

  [feature:文件类型名称](acrobat、activex、audio、embed、flash、frame、audio、video等) Yahoo、MSN、HotBot、overture……。

  ⑺、临近搜索(Proximity Searching)

  [NEAR] AltaVista、Lycos、WebCrawler、AOL……。

  [BEFORE] Lycos……。

  [FAR] Lycos……。

  [ADJ] Lycos、AOL……。

  此外,符号搜索指令还有表示强制搜索的加号“+”、精确搜索的引号“" "”、优先搜索的圆括号“( )”、同义词搜索的“~”号等等。

  搜索引擎是否支持某种搜索指令和各种搜索指令的形式在其搜索“帮助(Help)”文件中均会有相关的说明。判断搜索引擎是否支持某种搜索指令也可以采用以下方法:即使用某一搜索指令搜索,如果其结果不出现指令词或符号本身并显示相应的结果,则该搜索引擎支持该搜索指令,反之,如果结果中出现指令词或指令符号,则该搜索引擎就一定不支持该搜索指令。

  应当注意到,采用同一搜索技术或搜索结果具有同源性的搜索引擎,其搜索指令基本相同。然而,搜索技术或搜索结果的提供商与其合作者的关系,绝不是一成不变的,随着搜索技术的升级和搜索引擎之间关系的变化,各搜索引擎所支持的搜索指令也会有所调整和改变。 

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值