有些的网站实现一些特定的机制,以一些手段来避免被爬取,那么作为攻城狮的我们就需要和这些做斗争,,下面就要介绍一些技巧,来破解他们这些技术
攻城狮技巧一:
使用user agent池,轮流选择之一作为user agent 。池中包含常见的浏览器user agent (网上有很多的 亲)
攻城狮技巧二:
禁止cookies ,有些站点会使用cookies来发现爬虫的轨迹
攻城狮技巧三:
设置下载延迟,2或是更高,参考 DOWNLOAD_DELAY A设置
攻城狮技巧四:
如果可行的话 可以使用Google cache 来爬取数据,而不是直接的访问站点
攻城狮技巧五:
使用IP池,例如免费的Tor项目,或者是付费的服务
攻城狮技巧六:
使用高度分布式的下载器来绕过ban,您只要专注的分析页面
本文介绍了攻破网站防爬机制的六大技巧,包括使用UserAgent池、禁用Cookies、设置下载延迟、利用Google缓存、切换IP地址及分布式下载等策略。
491

被折叠的 条评论
为什么被折叠?



