百度无法爬取Github Pages静态网站解决方案

本文探讨了托管在GitHub Pages的静态博客无法被百度搜索引擎收录的原因。由于百度爬虫频繁访问导致GitHub服务不稳定,GitHub已屏蔽百度爬虫,使得GitHub Pages上的站点不被百度索引。文章还提供了如何验证百度爬取失败的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在Github Pages上面托管了自己的静态博客,经过一段时间的运行发现自己网站的流量基本都是来自与谷歌、必应、搜狗等等搜索引擎,确没有百度的搜索引擎的流量,最后谷歌一下发现原因是:

百度爬取GitHub太频繁了,甚至引起了GitHub的服务不稳
定,最后GitHub直接把百度屏蔽了,也就是说,所有托管
到GitHub Pages上的静态博客都是无法被百度搜索到。

可以用如下的方法进行验证:
打开百度站长平台—>网页抓取—->抓取诊断。然后点击抓取。完成之后发现抓取状态是失败。这时候点击进入详情发现,返回的HTPP状态是HTTP/1.0 403 Forbidden(403表示链接被拒绝)。如下:

本文迁移至: http://guochenglai.com/2016/09/26/baidu-crow-github-page/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值