3个站,2个站是9月低上线的(分别做站A,站B),基本都是采集的伪原创发布的,昨天也开始弄了个站是另外分类的站点也是采集伪原创后的(站C)。
目前状况是:站A站B在百度上没有被收录,但是被soso和google收录了几十篇。站C都没有被收录。
查看了10月5号的访问日志,根据ip我查询了下,站A被百度的蜘蛛爬过一次,访问的地址是robots.txt 然后就走了,再也没来。google的上来先是找robots.txt ,然后还是爬了几个别的页面。因为我的站点都没有这个文件,所以我刚才都发了一个robots.txt的文件上去。
发现一个东西1:这个蜘蛛的爬行时间基本都是早上6-7点钟。
2:google的蜘蛛很多,会爬行重复的页面,对于一个页面比较大的,会被N个不同的蜘蛛来爬行(我发现一个页面被10几个ip来爬,这些ip经查询都是google中国的,这个页面我打开看发现是页面比较大。。)
因为目前这几个站点都没有被baidu收录,我最开始怀疑是百度发现我是伪原创,但是经过今天日志分析是百度根本没来爬行我的页面就,我的域名都是买的备案过的,不知道没有被百度收录是否有此影响?
我接下来打算买个新的域名,没有备案的测试下。。
根据今天的分析,我先把robots.txt逗弄上去,看看明天的效果。。然后把最近的成果和大家一起分享下,共同来找规律一起来进步。