sogou spider 抓取网站robots.txt 400问题?

首先,我要说,网站正常访问是没问题的。而且,百度,360 spider都访问ok。
但sogou站长工具测试没问题,后台日志显示,抓取的时候,就是400.
不过,确实看不出来400的与其他有什么差别。由于采用了https访问,所以,做了301转向调整。另外 panjishengwu.com 转向了www.panjisheng.com的转向跳转。都是301.
浏览器测试都是正常。

对于400错误,我一定办法没有。而且,只有这个文件是400.
但这个文件影响了我的收录。 我调整域名,调整nginx的robots.txt配置,都无用。
请求根本到不了后端。到目前为止问题依然没有解决。看到的200状态,都是我利用sogou的站长工具测试的。测试是没有问题的。
看了一些文章,有说是域名不对。我域名设置为所有。针对非我域名做301跳转。
但我收到还是400.

也有说是客户端问题。那这个我就无法验证了。具体怎么回事,如果有大拿清楚原因,还请赐教。

123.126.113.90 - - [02/Mar/2019:15:21:30 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.73 - - [02/Mar/2019:19:22:31 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [29/Jan/2019:08:58:34 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.82 - - [29/Jan/2019:23:21:35 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.82 - - [29/Jan/2019:23:22:57 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.90 - - [30/Jan/2019:00:21:36 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.90 - - [30/Jan/2019:00:21:51 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.131 - - [30/Jan/2019:03:22:19 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.131 - - [30/Jan/2019:03:24:23 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.158 - - [30/Jan/2019:07:20:45 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.158 - - [30/Jan/2019:07:21:54 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [30/Jan/2019:08:54:13 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [30/Jan/2019:21:06:15 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.132 - - [31/Jan/2019:00:22:14 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.132 - - [31/Jan/2019:00:22:14 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.38.241.121 - - [31/Jan/2019:03:24:24 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [31/Jan/2019:21:26:51 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [01/Feb/2019:09:14:04 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.133 - - [02/Feb/2019:00:17:31 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.133 - - [02/Feb/2019:00:18:01 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
111.202.101.250 - - [02/Feb/2019:08:30:09 +0800] “GET /robots.txt HTTP/1.1” 200 21 “-” “Mozilla/5.0 (Linux; Android 6.0.1) AppleWebKit/601.1 (KHTML,like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Sogou web spider/4.0; +http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [02/Feb/2019:09:37:55 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [02/Feb/2019:22:18:44 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
218.30.103.29 - - [03/Feb/2019:03:23:56 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [03/Feb/2019:17:53:33 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.104 - - [04/Feb/2019:00:22:41 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.120.173.104 - - [04/Feb/2019:00:23:02 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
106.38.241.111 - - [04/Feb/2019:03:21:36 +0800] “GET /robots.txt HTTP/1.1” 400 271 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.113.91 - - [04/Feb/2019:11:54:26 +0800] “GET /robots.txt HTTP/1.1” 301 185 “-” “Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)” “-”
123.126.11

<think>首先,用户的问题是:“我想设置robots.txt以允许百度蜘蛛抓取更多页面 请问robots.txt 百度蜘蛛 抓取 设置 允许 更多页面”。这翻译成英文是:“I want to set up robots.txt to allow Baidu spider to crawl more pages. How to set robots.txt for Baidu spider, crawl, set, allow, more pages.” 用户的核心需求是配置robots.txt文件,以便允许百度蜘蛛(Baiduspider抓取更多的页面。 从系统级指令中: - 所有行内数学表达式必须使用$...$格式。但在这个上下文中,可能没有数学表达式,所以我不需要担心这个。 - 独立公式必须使用$$...$$格式并单独成段。同样,可能不适用。 - LaTeX语法正确:确保任何公式正确。 - 使用中文回答:整个回答必须用中文。 - 生成相关问题:在回答末尾,添加相关问题。 - 回答中引用的段落末尾自然地添加引用标识:例如,[^1]。参考提供的引用内容。 提供的引用内容: - [^1]: 关于如何仅允许百度抓取JPG格式文件。 - [^2]: 关于使用robots.txt和nofollow标签引导蜘蛛抓取。 - [^3]: 关于dedecms蜘蛛抓取设置和robots.txt的好处。 - [^4]: 关于防止抓取HTML代码,只允许抓取HTML页面。 用户的需求是允许更多页面被抓取,而不是限制。所以,我需要基于这些引用,但调整以符合用户的需求。 关键点: - robots.txt文件用于控制蜘蛛(爬虫)的抓取行为。 - 允许更多页面,意味着减少限制,或指定允许的路径。 - 对于百度蜘蛛,用户代理是Baiduspider。 在robots.txt中: - User-agent: 指定蜘蛛名称。 - Allow: 允许抓取的路径。 - Disallow: 禁止抓取的路径。 要允许更多页面,我应该建议使用Allow指令来开放更多路径,或者减少Disallow指令。 从引用[^1]:它展示了如何仅允许JPG文件,但用户想允许更多页面,所以这相反。引用中显示了Allow和Disallow的用法。 引用[^2]:讨论了使用robots.txt和nofollow来引导蜘蛛抓取重要页面。 引用[^3]:关于robots.txt的好处。 引用[^4]:关于只允许抓取HTML页面。 用户想允许更多页面,所以我需要建议一个robots.txt配置,其中Disallow较少,或者Allow更多。 最佳实践: - 要允许所有页面,可以设置Disallow为空,但通常不建议,因为可能暴露敏感目录。 - 更安全的方式是允许特定目录或文件。 对于百度蜘蛛,允许更多页面: - 使用User-agent: Baiduspider - 然后,设置Allow: / 来允许所有路径,或者指定允许的目录。 - 但Allow指令不是所有爬虫都支持;标准是Disallow,但Allow可以用于覆盖。 在robots.txt中: - 规则是顺序敏感的。 - 通常,使用Disallow来禁止某些路径。 - 要允许更多,可以减少Disallow,或使用Allow来明确允许。 简单方式:设置一个空的Disallow,表示允许所有。 例如: User-agent: Baiduspider Disallow: 这表示没有禁止,所以允许所有。 或者,使用Allow来允许特定模式。 但为了简单,对于用户“允许更多页面”,建议减少限制。 此外,用户可能想确保蜘蛛抓取重要页面,所以引用[^2]中提到使用nofollow和robots.txt引导,这相关。 结构回答: 1. 解释robots.txt的作用。 2. 如何设置允许百度蜘蛛抓取更多页面。 3. 提供示例配置。 4. 添加相关建议,如使用nofollow或优化网站结构。 5. 末尾添加引用标识。 6. 生成相关问题。 回答结构: - 清晰、逐步。 - 使用中文。 - 引用内容:自然地添加引用标识。 例如,提到引用[^2]关于引导蜘蛛。 最终,robots.txt示例: User-agent: Baiduspider Allow: / # 允许所有路径 Disallow: # 空,表示没有禁止 但Allow可能不是标准;标准中,Disallow空表示允许。 在标准中: - Disallow: (空) 表示允许所有。 - Disallow: / 表示禁止所有。 所以,对于允许所有: User-agent: Baiduspider Disallow: 要允许更多,但禁止某些目录: User-agent: Baiduspider Disallow: /private/ Disallow: /tmp/ 但用户说“允许更多”,所以可能减少Disallow。 假设用户当前有太多限制,要放宽。 提供通用建议。 相关问题生成: 基于主题,如robots.txt优化、蜘蛛抓取策略等。 现在,整合引用: - 引用[^2]:关于引导蜘蛛抓取重要页面,这相关。 - 引用[^1]:关于允许特定格式,但用户想允许更多页面,所以可能不直接相关。 - 引用[^3]和[^4]:一般好处和设置。 在回答中,自然地引用。 例如:"正如引用[^2]提到的,使用robots.txt可以引导蜘蛛抓取重要页面。" 回答大纲: 1. 介绍:robots.txt文件用于控制搜索引擎蜘蛛的抓取行为。 2. 设置允许百度蜘蛛抓取更多页面的方法:减少Disallow指令或使用Allow指令。 3. 示例配置。 4. 额外建议:结合nofollow标签等,确保蜘蛛抓取重要内容。 5. 引用标识。 6. 相关问题。</think>### 设置robots.txt以允许百度蜘蛛抓取更多页面 您好!配置`robots.txt`文件是控制搜索引擎蜘蛛(如百度蜘蛛Baiduspider抓取行为的关键方法。您的需求是允许百度蜘蛛抓取更多页面,这通常涉及减少限制性规则或明确开放更多路径。下面我将一步步解释如何操作,确保回答清晰可靠。基于最佳实践和参考内容,我会提供具体设置建议。 #### 1. **理解robots.txt的基本结构** - `robots.txt`是一个文本文件,放置在网站根目录(如`www.yourdomain.com/robots.txt`),用于指导搜索引擎蜘蛛的抓取。 - 核心指令: - `User-agent`: 指定蜘蛛名称(例如,`Baiduspider`表示百度蜘蛛)。 - `Allow`: 允许抓取的路径或文件(可选,用于覆盖Disallow规则)。 - `Disallow`: 禁止抓取的路径或文件。 - 规则顺序敏感:蜘蛛从上到下解析,第一条匹配的规则生效。 - 要允许更多页面,核心策略是: - 减少`Disallow`条目,扩大开放范围。 - 使用`Allow`指令明确允许特定目录或文件(但需注意,`Allow`不是所有蜘蛛都完全支持,百度蜘蛛通常兼容)。 - 如果`Disallow`为空,表示允许所有内容(这是最开放的设置)。 正如引用[^2]提到的,合理使用`robots.txt`可以引导蜘蛛高效抓取重要页面,避免资源浪费。 #### 2. **如何设置允许百度蜘蛛抓取更多页面** - **步骤1: 识别当前限制** 检查您现有的`robots.txt`文件。如果它有多个`Disallow`规则(如禁止某些目录或文件类型),这些规则可能限制了抓取。要允许更多,您需要简化或删除这些限制。 - 例如,如果您的`robots.txt`中有`Disallow: /private/`或`Disallow: .html$`,删除或注释掉这些行可以开放更多路径。 - **步骤2: 创建宽松的规则** 针对百度蜘蛛(`User-agent: Baiduspider`),设置`Disallow`为空或最小化,并用`Allow`强调开放区域。以下是推荐配置: - **最开放设置(允许所有页面)**: 如果您的网站没有敏感目录,直接设置`Disallow`为空。这表示百度蜘蛛可以抓取整个网站。 ```plaintext User-agent: Baiduspider Disallow: # 空值表示允许所有路径 ``` - 优点:简单高效,蜘蛛抓取覆盖率最高。 - 缺点:如果网站有敏感区域(如后台目录),不建议使用此方式。 - **部分开放设置(允许特定目录)**: 如果您只想开放部分重要页面(如博客或产品页),使用`Allow`明确指定路径,并减少`Disallow`。 ```plaintext User-agent: Baiduspider Allow: /blog/ # 允许抓取/blog/目录下所有内容 Allow: /products/ # 允许抓取/products/目录 Disallow: /admin/ # 仅禁止敏感目录,其他默认允许 ``` - 说明:这里`Allow`指令优先,蜘蛛会抓取`/blog/`和`/products/`,而`/admin/`被禁止。其他路径(如首页)默认允许。 - 此方法更安全,并引用[^4]的建议:通过限制非HTML文件(如`Disallow: .gif$`)来聚焦重要页面,但您想允许更多,因此应避免过多Disallow。 - **步骤3: 测试和部署** - 使用百度搜索资源平台(Search Console)的“robots.txt 测试工具”验证文件,确保无语法错误。 - 上传`robots.txt`到网站根目录后,百度蜘蛛通常在几小时到几天内更新抓取行为。 - 监控抓取效果:通过百度站长工具查看“抓取频次”报告,确认页面抓取量是否增加。 #### 3. **额外建议:优化蜘蛛抓取效率** - **结合nofollow标签**: 在HTML中,对不重要链接(如“联系我们”或“登录页”)添加`rel="nofollow"`,引导蜘蛛跳过这些页面,专注于您开放的核心内容。这能提高抓取效率,正如引用[^2]所述,通过nofollow和robots.txt配合,可以集中蜘蛛资源抓取高价值页面[^2]。 - **网站结构优化**: - 确保重要页面有清晰的内部链接(如导航菜单),帮助蜘蛛发现更多内容。 - 避免重复内容或无效URL,减少蜘蛛抓取“垃圾信息”(引用[^4]提到,robots.txt可用于防止抓取低质量页面,但您想允许更多,因此重点在清理网站结构)。 - **定期审查**:robots.txt不是一劳永逸。随着网站更新,每季度检查一次规则,确保未意外禁止新页面。 #### 4. **注意事项** - **百度蜘蛛兼容性**:百度蜘蛛(Baiduspider)对`Allow`指令支持良好,但测试是必要的。避免使用复杂正则表达式(如`.*`),保持规则简单。 - **安全性**:如果您有敏感数据(如用户后台),永远不要仅靠robots.txt保护(它只是指导性文件,恶意爬虫可能忽略)。应结合服务器权限或密码保护。 - **其他搜索引擎**:如果您的网站也面向Google等,添加通用规则(如`User-agent: *`)来统一管理。例如: ```plaintext User-agent: * # 适用于所有蜘蛛 Disallow: /tmp/ # 禁止所有蜘蛛抓取/tmp/目录 User-agent: Baiduspider # 单独为百度设置更宽松规则 Disallow: ``` 通过以上设置,百度蜘蛛将抓取更多页面,提升网站在搜索引擎中的可见性。如果您有具体网站结构,我可以提供更定制化的robots.txt示例。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值