关于搜索引擎

本文介绍了搜索引擎如何通过爬虫抓取网页内容,并探讨了robots.txt文件的作用及其对不同搜索引擎的不同权限设置。此外,还讨论了如何检查网站被搜索引擎收录的数量,以及搜索引擎在抓取网页后的索引建立过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  提到搜索引擎,不得不说到Google和百度,现如今,搜索引擎主要是通过两种方法来获取网页内容,一个是由爬虫去爬,也就意味着,如果你的网站没有被外部引用,就不会被搜索引擎发现,这也就是友情链接的作用,帮助你的朋友被搜索到;另一个是主动去注册,就是你主动向搜索引擎后台提供你的链接,由它选择将你收录到什么名下。

  在使用爬虫的情况下,你可以设置网站的robots.txt,规定是否允许被爬取,发现一个很有趣儿的事情,比如淘宝网:https://www.taobao.com/robots.txt

       

仔细一看,对于百度和Google居然有不一样的权限限制,hhh果真A家和B家是有世仇啊。不过其实限制了也似乎没什么大用,因为看大众点评的限制如下:


但其实用爬虫也是可以爬到数据的,这也就是相当于某种自觉吧。爬虫技术暂时说到这里,但是这里强调一下,有外链,不代表搜索爬虫会来爬取,爬虫爬取了,不代表搜索引擎会收录;搜索引擎收录了,不代表用户可以搜索的到

  下面介绍一个小工具,site:Taobao.com这个可以检查一个网站的被收录数量

当爬虫爬下来这些数据时,搜索引擎要处理的关键就变为了建立如何的索引使得查找速度最大,一般采用倒排索引,即抽出关键字作为索引,然后标注其存在的位置,但是对于中文来说,这其实十分困难,搜索引擎的问题变为了NLP的问题。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值