3个站对访问日志的分析发现的一些问题[2]

本文分析了三个虚拟主机站点的访问日志,包括各站点被不同搜索引擎蜘蛛访问的时间趋势。同时讨论了站点A、B、C在百度和谷歌的收录情况,以及是否在添加robots.txt文件后对百度收录产生了影响。最后提出关于百度收录速度的疑问,并分享了关于伪原创内容在百度收录方面的见解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 昨天的修改就是给每个站点增加了一个robots.txt文件。来分析下站点A站点B和站点C昨天的访问日志。

由于是虚拟主机,对方提供的访问日志很少,都是根据ip来查询的,所以可能会有不准确,我都是拿ip在google中搜索来看属于什么蜘蛛的。今天来说下总体的趋势,总的来说都很不错3个站点都被很多蜘蛛来访问了。
1:站点A:这个站做得最早大概有一周了,经过发现在昨天早上到中午之前,还是大量的被google的蜘蛛给爬过了,中间掺杂这yahoo和sogou的蜘蛛,msn的蜘蛛和chinacache的(这个公司的ip是美国的,不是中国的公司的嘛),soso的就不说了吧,每天都在爬,数量不多,soso的蜘蛛是用我的虚拟主机所在城市的idc的ip来爬行的,google的大多是北京的ip,少量是国外的加利福尼亚的ip,晚上20点开始后,首先被百度的一个ip爬行了robots.txt文件,接着其余的一个ip段大量来爬行我的页面。
2:站点B:早上8点之前被百度的蜘蛛大规模的爬行了,下午也就是添加了robots.txt之后,只有被soso和google的爬行,都是上来先找robots.txt
3:站点C:发现早上11点之前被百度大规模的爬行,下午20点左右大规模被百度爬行,和站点A的访问时间差不多。

分别在百度和google中进行site命令的查询,发现站点A没有变化,只有一个快照10月5号的首页,站点B没有任何信息,站点c增加了一个10月6号的快照。

一些结论:
由于分析结果才2天,昨天才新增了robots.txt文件,并且站点A和B也是从这两天开始分析访问日志的,从这2个站点上得到结论的话不太合理,还需要长期的观察后再说。
站点C就是前天开始建立的站点,在A5发了一个外联的。经过这2天分析发现,第一天基本没有被baidu爬行,第二天也就是昨天,就被百度大规模爬行了。
根据百度访问的时间和我添加robots.txt文件的时间来看,好像这个文件和具体的访问关系也不大,但是通过访问日只发现还是上来都先找robots.txt文件的,所以建议大家还是放上去这个文件吧。。

一些需要高手回答的问题:是不是当天爬行后需要很久才会被百度收录?我的主要是伪原创的,很害怕百度不收录的。google对我的收录就很好,站点A都收录了200多页,站点B有20多页,站点C有30多页的。大家都说百度不如google的在内容伪原创方面的判断,既然google都收录了,那么百度肯定判断不出来是伪原创的吧?

明天我将继续分析。。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值