Baiduspider - 百度蜘蛛:
百度是如何收录到那么多网页的呢?这个百度用以抓取互联网上数以亿计的网页的程序,就叫做Baiduspider - 百度蜘蛛。
它是一个程序,夜以继日得在互联网上找寻新的URL,接着抓取URL上的内容,返回到百度的网页暂存数据库。
百度用来抓取网页内容的程序,叫做Baiduspider,抓取其他内容的蜘蛛,则是新的名字:
产品名称 对应user-agent
网页搜索 Baiduspider
无线搜索 Baiduspider-mobile
图片搜索 Baiduspider-image
视频搜索 Baiduspider-video
新闻搜索 Baiduspider-news
百度搜藏 Baiduspider-favo
百度联盟 Baiduspider-cpro
不少朋友会在自己的网站日志里看到这个蜘蛛Baiduspider-cpro,现在我们明白它是百度联盟蜘蛛,用以百度联盟程序匹配相应的广告。
Baiduspider是百度的网络爬虫,不断寻找新的URL并抓取内容,如网页、图片、视频等,将其存储在数据库中。不同类型的搜索由不同的蜘蛛处理,如Baiduspider-mobile针对无线搜索,Baiduspider-cpro则涉及百度联盟的广告匹配。
7095

被折叠的 条评论
为什么被折叠?



