3个站对搜索引擎访问日志的分析发现的一些问题

本文详细分析了三个网站的收录情况,包括百度、Soso和Google的收录差异,通过日志分析发现百度蜘蛛未进行有效爬取的原因,并计划采用新域名进行测试。同时,对百度收录的影响因素进行了探讨。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

3个站,2个站是9月低上线的(分别做站A,站B),基本都是采集的伪原创发布的,昨天也开始弄了个站是另外分类的站点也是采集伪原创后的(站C)。

 

目前状况是:站A站B在百度上没有被收录,但是被soso和google收录了几十篇。站C都没有被收录。

 

查看了10月5号的访问日志,根据ip我查询了下,站A被百度的蜘蛛爬过一次,访问的地址是robots.txt 然后就走了,再也没来。google的上来先是找robots.txt ,然后还是爬了几个别的页面。因为我的站点都没有这个文件,所以我刚才都发了一个robots.txt的文件上去。

 

发现一个东西1:这个蜘蛛的爬行时间基本都是早上6-7点钟。

2:google的蜘蛛很多,会爬行重复的页面,对于一个页面比较大的,会被N个不同的蜘蛛来爬行(我发现一个页面被10几个ip来爬,这些ip经查询都是google中国的,这个页面我打开看发现是页面比较大。。)

 

因为目前这几个站点都没有被baidu收录,我最开始怀疑是百度发现我是伪原创,但是经过今天日志分析是百度根本没来爬行我的页面就,我的域名都是买的备案过的,不知道没有被百度收录是否有此影响?

我接下来打算买个新的域名,没有备案的测试下。。

 

根据今天的分析,我先把robots.txt逗弄上去,看看明天的效果。。然后把最近的成果和大家一起分享下,共同来找规律一起来进步。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值