google和python

本文通过分析网站日志发现,Google在爬取新上线网站时可能先使用Python-urllib作为探针,随后再派遣Googlebot进行正式抓取。这种现象暗示了Python在Google爬虫系统中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一直传闻googlepython有很紧密的联系,google adsense上的faq就是用的python,据说google爬虫程序最初也使用python做原型。不过,分析热视网上apache的日志

208.223.208.181 - - [24/Jan/2007:04:26:56 +0800] "GET /music HTTP/1.0" 200 7388 "-" "Python-urllib/1.16"
208.223.208.181 - - [24/Jan/2007:04:26:58 +0800] "GET /movie/17537 HTTP/1.0" 200 8069 "-" "Python-urllib/1.16"
208.223.208.181 - - [24/Jan/2007:04:26:56 +0800] "GET / HTTP/1.0" 200 38389 "-" "Python-urllib/1.16"
208.223.208.181 - - [24/Jan/2007:04:26:59 +0800] "GET /movie HTTP/1.0" 200 9994 "-" "Python-urllib/1.16"
66.249.65.201 - - [24/Jan/2007:04:52:48 +0800] "GET / HTTP/1.1" 200 38389 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

由于热视网是新站上线,所以还没有被google等收录,但是我的网站先是被一个叫做Python-urllib/1.16的agent访问,气候googlebot才来访问,这不由不让我觉得这个Python-urllib/1.16的agent就是google的bot程序。

 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值