403错误,是服务器理解客户的需求,但拒绝处理它。所以当用爬虫或rome直接访问此类网站,就会出现403错误。解决方法其实很简单,模拟浏览器就可以了。在爬之前加上下面这条语句就可以解决此类问题。
System.setProperty("http.agent", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.29 Safari/537.36");
本文介绍了如何解决爬虫或rome直接访问网站时遇到的403错误。通过模拟浏览器的行为,可以在爬取前加入特定的HTTP代理设置来规避服务器的拒绝访问响应。
606

被折叠的 条评论
为什么被折叠?



