设置nginx让baidu,google等爬虫抓取不同语言的页面

最新推荐文章于 2025-10-22 16:31:10 发布

原创最新推荐文章于 2025-10-22 16:31:10 发布 · 557 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#爬虫 #运维 #web.xml

ngnix 同时被 2 个专栏收录

3 篇文章

订阅专栏

1 篇文章

订阅专栏

本文介绍了一种通过设置nginx的user_agent来引导不同搜索引擎爬虫抓取相应语言页面的方法。例如，对于百度等中文搜索引擎，网站会将其重定向至中文页面；而对于Google等英文搜索引擎，则保持在英文页面。

很多网站都有多语言版本，站长往往希望baidu爬虫爬中文页面，而google爬虫爬英文页面。于是，如果网站如以nginx做前端的话，站长往往会在nginx.conf中设置http头的accept-language，让爬虫重定向到指定语言页面进行抓取。但是事与愿违，google和baidu爬虫不设置http头的accept-language，导致爬虫抓取的是web.xml指定的默认页面。这样，baidu抓取中文页面，google抓取英文页面就无法同时达到。

http://www.findmaven.net 是博主的网站，是一个findjar和findmaven的搜索引擎，可以根据class名或者jar名找到包含它的jar和maven gav，以这个网站打比方

findjar和findmaven的搜素引擎

博主这样设置

1）网站的web.xml中默认页面还是设置为index_en.jsp英文页面

2）设置nginx的user_agent

if ($http_user_agent ~* (baidu|360|sogou)){

set $lang "/index_cn.jsp";

}

如果是baidu,360,sogou爬虫的话，重定向到index_en.jsp抓取中文页面；如果是google爬虫，则抓取默认页面index_en.jsp英文页面

设置后结果如下

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。