2023再更新下百度蜘蛛最新UA(User Agent)

本文列举了包括百度、Google、Bing、360搜索、搜狗等在内的多个搜索引擎的蜘蛛爬虫用户代理(UA),这些信息对于开发者识别搜索引擎爬虫并优化网站配置非常有用。

其实百度蜘蛛的UA一直没什么变化,有不少朋友以为百度蜘蛛修改特征了,我查了下日志,把最新的UA整理出来给大家。

百度UA信息:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

神码ai在了解各大搜索引擎蜘蛛爬虫的UA,对自己进行某些程序编写十分有用,例如网页判断客户端来源时,UA是常用的标准之一。本文收集了各大搜索引擎的蜘蛛爬虫UA,以便需要时查阅。我也在思考是否要给java-er.com设置个头,不过我目前还没有搜索引起,所以也无所谓了。

 

Google

“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Google图片搜索

“Googlebot-Image/1.0”
Adwords移动网络

“AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari”

微软 bing,必应

百度

“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

百度图片 码农号

“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”

百度最新UA如下:

PC:

Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

移动:

Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

360搜索

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);

360网站安全检测

360spider (http://webscan.360.cn)

Bing

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

腾讯搜搜

“Sosospider+(+http://help.soso.com/webspider.htm)”

搜搜图片

“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”

雅虎英文

“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

雅虎中国

“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”

搜狗图片

“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

搜狗

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

网易有道

“Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )”

瑞典 Speedy Spider

“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)”

俄罗斯 yandex

“Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”

宜搜 EasouSpider

Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)

华为赛门铁克蜘蛛

“HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/cn/IRL/spider)”

华为赛门铁克科技有限公司网页信誉分析系统的一个页面爬取程序,其作用是用于爬取互联网网页并进行信誉分析,从而检查该网站上的是否含有恶意代码。

七牛镜像蜘蛛

qiniu-imgstg-spider-1.0

监控宝

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)”

DNSPod监控

DNSPod-Monitor/2.0

俄罗斯 LinkpadBot

Mozilla/5.0 (compatible; LinkpadBot/1.06; +http://www.linkpad.ru)

英国 MJ12bot

“Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+)”
<think>嗯,用户想了解百度搜索引擎爬虫的特征,特别是User-Agent标识。这个问题很专业,用户可能是网站管理员或SEO优化人员,需要配置服务器或验证蜘蛛的真实性。 根据引用资料,百度蜘蛛User-Agent标识在不同版本有所不同。主要分为PC端和移动端两类:PC端标识是"Baiduspider",后面跟着版本号;移动端则是"Baiduspider-render",同样有版本号。比如"Baiduspider/2.0"就是常见的PC端标识。 用户可能还需要注意验证蜘蛛的真实性。因为有些恶意爬虫会伪造User-Agent。引用中提到的PHP代码片段很实用,可以通过检测User-Agent字符串是否包含"Baiduspider"关键词来判断。不过要注意,完整的验证还需要结合IP反向解析,因为UA容易被伪造。 另外用户可能没意识到但很重要的点是robots.txt协议。引用里提到百度蜘蛛会优先检查这个文件,如果网站有不想被收录的内容,需要通过它来声明。不过如果希望全部收录,反而不要创建这个文件。 最后想到用户可能会混淆不同设备的爬虫标识,所以补充说明了移动端和PC端的区别。还提到"Baiduspider-images"这种专门抓取图片的子类爬虫,因为用户的问题只问了通用爬虫特征,这个作为额外信息比较合适。</think>百度搜索引擎的爬虫百度蜘蛛)的 **User-Agent 标识**主要包含以下特征: ### 核心标识 1. **PC网页抓取** - 标准格式:`Baiduspider` - 完整示例: ```http Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) ``` - 版本号可能更新(如 `Baiduspider/3.0`),但核心标识不变。 2. **移动网页抓取** - 标识:`Baiduspider-render` - 示例: ```http Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,likeGecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) ``` 3. **图片抓取专用** - 标识:`Baiduspider-image` - 用于抓取图片内容。 --- ### 验证百度蜘蛛的方法 1. **User-Agent 检测** 在服务器日志中检查访问请求是否包含 `Baiduspider` 或 `Baiduspider-render` 关键词[^1][^4]。 2. **IP反向解析** 百度蜘蛛的IP属于 `baidu.com` 域名。可通过命令验证: ```bash host <IP地址> # 若解析结果为 *.baidu.com 则为真实蜘蛛 ``` --- ### 注意事项 - **伪造风险**:恶意爬虫可能伪造User-Agent,需结合IP反向解析确认[^4]。 - **robots.txt 协议**: 百度蜘蛛会优先读取网站的 `robots.txt` 文件,遵守其中定义的爬取规则[^2][^3]。 - **抓取频率**: 网站更新频率、服务器响应速度会影响百度蜘蛛的访问频次。 --- ### 常见问题解答 **Q:如何禁止百度抓取某些页面?** A:在 `robots.txt` 中添加规则: ```robots User-agent: Baiduspider Disallow: /private/ # 禁止抓取/private/目录 ``` **Q:百度蜘蛛抓取导致服务器压力过大怎么办?** A:通过 `robots.txt` 限制抓取频次,或联系百度站长平台调整抓取配额。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值