3月1号到4月20号的baidu spider抓取日志分析

本文分析了3月1日至4月20日期间百度蜘蛛对某站点的抓取情况,指出无效抓取占比高及收录数量不足的问题,并提出了网站重构时进行URL兼容性和定期更新内容的建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3月1号-4月20号 baidu每天抓取日志数量图

 

以上图片是针对我们站,从3月1号开始到4月20号截止的baidu spider抓取数量变化曲线图,包括了总抓取数目、无效抓取和有效抓取数目。

 

其中,无效抓取指的是,虽然域名是我们站,但是并不存在的网址,这些可能是旧有网址,在新站构建之后失效了的。当时做的时候,忘记做兼容了。

 

从图片上可以看到,在3月10号和3月29号,分别出现了两次抓取高峰。而其中无效抓取大致占了50%。这些无效抓取的返回状态码大多是200,但是没有内容。这样可能造成了baidu对我们域名的信任度的降低。

 

同时,由于网站内容长久缺乏更新,baidu的抓取数量越来越少。到4月5号之后,基本的抓取数目都低于1000,大部分时候甚至是在200-600之间。

 

查看baidu的收录网页数目:  158,google收录数目:987。可以看出baidu收录的远远不足。

 

所以,在重构网站的时候,要顾及到原有的url,做301重定向之类。同时,保持稳定的网站内容更新频率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值