
以上图片是针对我们站,从3月1号开始到4月20号截止的baidu spider抓取数量变化曲线图,包括了总抓取数目、无效抓取和有效抓取数目。
其中,无效抓取指的是,虽然域名是我们站,但是并不存在的网址,这些可能是旧有网址,在新站构建之后失效了的。当时做的时候,忘记做兼容了。
从图片上可以看到,在3月10号和3月29号,分别出现了两次抓取高峰。而其中无效抓取大致占了50%。这些无效抓取的返回状态码大多是200,但是没有内容。这样可能造成了baidu对我们域名的信任度的降低。
同时,由于网站内容长久缺乏更新,baidu的抓取数量越来越少。到4月5号之后,基本的抓取数目都低于1000,大部分时候甚至是在200-600之间。
查看baidu的收录网页数目: 158,google收录数目:987。可以看出baidu收录的远远不足。
所以,在重构网站的时候,要顾及到原有的url,做301重定向之类。同时,保持稳定的网站内容更新频率。
百度蜘蛛抓取分析
本文分析了3月1日至4月20日期间百度蜘蛛对某站点的抓取情况,指出无效抓取占比高及收录数量不足的问题,并提出了网站重构时进行URL兼容性和定期更新内容的建议。
3372

被折叠的 条评论
为什么被折叠?



