selenium做爬虫能解决很多反爬问题,但是selenium也有很多特征可以被识别,比如用selenium驱动浏览器后window.navigator.webdriver值是true,而正常运行浏览器该值是未定义的(undefined),如下:
网上的各种文章往往告诉大家把selenium做一下启动配置即可,如下:
option.add_experimental_option("excludeSwitches", ['enable-automation'])
但是实际操作后发现并没有用,不管怎么配置window.navigator.webdriver的值还是true
出现这种情况的原因ChromeDriver 79.0.3945.36版本无法通过更改enable-automation设置解决window.navigator.webdriver==true的问题。谷歌浏览器修复了非无头模式下排除“启用自动化”时window.navigator.webdriver是未定义的问题。
简单来说就是ChromeDriver 79.0.3945.36到目前的这些版本(如果不是在无头模式下)就无法通过修改启动配置来达成我们的目的
要想正常使用,得把把Chrome回滚一个版本,并找到对应的ChromeDriver版本。这样才可以!此外,你还可以采用mitmproxy中间人的方式或者Pyppeteer模块来解决这问题,但是之前没接触过的话时间成本有点高!
所以简单的解决办法就是回滚浏览器和驱动的版本或者换个浏览器
一言以蔽之,window.navigator.webdriver无效的问题是因为浏览器版本不同所以配置没起作用。
附上驱动的下载链接和版本对应的表的链接:
- 驱动程序:http://chromedriver.storage.googleapis.com/index.html
- 版本的映射关系:https://blog.youkuaiyun.com/huilan_same/article/details/51896672