前端js对模拟浏览器爬虫的解决方案
- 我们在开发爬虫的过程中喜欢使用Selenium + Chromedriver,然后在前端中一行Javascript代码就可以识别出来,从而把你干掉
首先我们用一下代码启动模拟浏览器
from selenium.webdriver import Chrome
driver = Chrome()
如下图:
接下来我们用一行js代码来调试window.navigator.webdriver
返回的结果为ture
接下来咱们返回正常的浏览器进行查看,运行相同的代码,如下图所示
可以看到正常的浏览器为undefined,所以我们就知道了在一些网站会知道咱们的是模拟浏览器的,这只是其中的一种方法。
同样有影响的是咱们破解了某个网站的加密,在借助模拟浏览