网站服务器 如何防止恶意爬虫抓取

本文介绍了SemrushBot蜘蛛对服务器的潜在影响,包括增加负担且对SEO无实质帮助。通过详细讲解如何使用robots.txt以及针对Apache和Nginx服务器设置规则,来屏蔽该爬虫的抓取行为。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

恶意的蜘蛛行为不光会造成服务器的压力,并且对seo没有实质性用处,下面就拿SemrushBot蜘蛛为例来说明如何防止恶意爬取

SemrushBot蜘蛛原型

SemrushBot蜘蛛爬虫UA:"Mozilla/5.0 (compatible; SemrushBot/6~bl; +http://www.semrush.com/bot.html)"

为什么要屏蔽SemrushBot蜘蛛抓取

1、SemrushBot蜘蛛抓取过多增加网站服务器负担

2、SemrushBot不会给网站带来实质性帮助

SemrushBot蜘蛛爬虫屏蔽:通过robots.txt

User-Agent: SemrushBot

Disallow: /

注意:但是很多爬虫对robots.txt视若罔闻,照样来爬取本站的内容,那我们就从服务器端来屏蔽爬取的爬取

apache服务器通过.htaccess来屏蔽

RewriteCond %{HTTP_USER_AGENT} ".*(SemrushBot|GoogleBot).*" [OR]

ngnix服务器通过伪静态来屏蔽

#禁止Scrapy等工具的抓取
if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
     return 403;
}
#禁止指定UA及UA为空的访问
if ($http_user_agent ~* "FeedDemon|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Cont
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

夏天的一朵云

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值