Python + Selenium 被反爬后的解决方法

Python+Selenium反爬后用FirefoxDriver解决

最新推荐文章于 2025-01-23 15:49:01 发布

原创

最新推荐文章于 2025-01-23 15:49:01 发布 · 2.7k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#python #selenium #linux #php #chrome

背景：

需要去爬一个香港的电子元件供应商网站的库存数据，但使用PHP的get_file_content出现403，使用CURL则提示你的浏览器不支持JS和Cookie，被认定为robot了。然后使用Python3+Selenium+ChromeDriver，在windows上成功爬到数据！

问题：

但是放到Linux上面运行时，因为linux无GUI，所以需要用到webdriver的option里的headless，结果又被识别为Robot了（也是提示你的浏览器不支持JS和Cookie）。。网上找了很多方法，都无法解决。

解决：

最后，不使用ChromeDriver，改为使用FirefoxDriver (geckodriver)，问题解决！成功可以使用headless在linux上爬到数据！

from selenium import webdriver
from selenium.webdriver.firefox.options import Options

def getHtml(url):

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

jyzbamboo

关注关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

cannot import name ‘izip‘ from ‘itertools‘

jacke121的专栏

12-12

6078

cannot import name 'izip' from 'itertools' python3不支持：解决方法： try: from itertools import izip except ImportError: izip = zip

[itertools中的izip无法导入]--如何解决izip无法导入的问题？

03-22

1199

而itertools模块中的izip函数是一个非常有用的工具，它可以将多个序列中的元素一一对应，返回一个生成器对象。如果你使用的是Python 3，那么izip不再被支持，你需要使用zip函数。首先，需要明确的是，在Python 3中，izip已经被弃用，并被zip所替代。如果你仍然使用的是Python 2.x版本，而izip无法导入，则说明你的Python环境中缺少了对应的模块。总之，无论你是使用Python 2还是Python 3，都可以通过上述方法来解决izip无法导入的问题。可以尝试重新加载模块。

1 条评论您还未登录，请先登录后发表或查看评论

详解cannot import name ‘izip‘ from ‘itertools‘错误

牛肉胡辣汤

04-08

948

详解cannot import name 'izip' from 'itertools'错误在Python中，itertools模块是一个非常有用的工具，它提供了许多迭代器函数，用于高效地处理迭代操作。然而，有时你可能会遇到一个错误，即cannot import name 'izip' from 'itertools'。在本篇文章中，我们将详细解释这个错误的原因，并提供一些解决方案。错误原因这个错误通常出现在使用较旧的Python版本（特别是Python 2.x系列）以及尝试使用izip函数时。

ImportError: cannot import name 'izip & TypeError: 'float' object cannot be interpreted as an intege...

weixin_30699465的博客

08-12

290

ImportError: cannot import name 'izip' 参考：https://codereview.stackexchange.com/questions/26271/import-izip-for-different-versions-of-python A common idiom that I use for Python2-Python3 compatibilit...

python3 selenium chromedriver被反爬识别的解决办法

01-20

反爬比较严的网站会识别selenium driver中的js属性，导致页面加载识别，可以通过本地手动驱动浏览器解决。启动方式：在windows或者mac下找到浏览器执行文件，然后运行：/Applications/Google\ Chrome.app/Contents/...

python+selenium 设置无头浏览器反爬问题

热门推荐

面向未来的历史

05-13

1万+

状况：在centos上使用python3.5，系统本身带有python2.7，自己没有将默认的python从2.7链接为3.5。然后安装python3使用的包：ssdb，安装方式 pip3 install ssdb,或者直接下载包源文件，进入文件内，安装 python3 setup.py install 。最后都出错。 importError: cannot import name ‘

[516]importError: cannot import name 'izip_longest'

周小董

02-01

3079

importError: cannot import name ‘izip_longest’ 解决方法： itertools.izip在pyhton3中已被去掉了，zip成为内置的方法返回的是迭代器 iterator，而在python2 中返回的是列表list。找到使用了 from itertools import izip_longest 的文件，将 izip_longest 改为...

使用selenium库做基本的反反爬虫，这都不会还说会爬虫？

爬遍所有网站

10-27

1190

现在很多网站为防止爬虫，加载的数据都使用js的方式加载，如果使用python的request库爬取的话就爬不到数据，selenium库能模拟打开浏览器，浏览器打开网页并加载js数据后，再获取数据，这样就达到反反爬虫，selenium的功能不止这一个，还能做很多，比如定位到某一个标签（可根据classname、id、html标签等），点击，上滑，js语句操作等等操作。首先下载chrome驱动：http://npm.taobao.org/mirrors/chromedriver/ 如果chrome的版本和

Seleium常用的元素

优快云mifeng的博客

03-25

351

implicitly_wait()隐式等待 """ implicitly_wait():隐式等待当使用了隐士等待执行测试的时候，如果 WebDriver没有在 DOM中找到元素，将继续等待，超出设定时间后则抛出找不到元素的异常换句话说，当查找元素或元素并没有立即出现的时候，隐式等待将等待一段时间再查找 DOM，默认的时间是0 一旦设置了隐式等待，则它存在整个 WebDriver 对象实例的...

python写的爬虫，抓取百度的搜索结果，被屏蔽了怎么办？

njmanong的博客

04-08

2476

python selenium在ubuntu服务器上访问网页报403错误

qq_43671480的博客

12-22

1751

python selenium在Ubuntu服务器上访问页面报403错误经过排查得出 self.chrome_opts.add_argument("start-maximized") self.chrome_opts.add_argument("enable-automation") self.chrome_opts.add_argument("--disable-infobars") self.chrome_opts.add_argume

爬虫进阶路程3——绕开selenium反爬

qq_30095631的博客

12-15

1464

在《爬虫进阶路程1——开篇》中说道过，自己本以为使用了selenium就万事大吉了，结果发现使用selenium之后还是死了的，似乎别人的代码能够识别出自己使用了selenium，查资料下来确实如此，反爬手段其实也简单，就是去获取你当前浏览器的一些基本信息，如果包含了selenium打开浏览器的一些特征，就认为你是selenium，而不是正常的浏览器。知道他反爬的原理，其实就知道怎么解决了，无非两种：在他进行特征判断之前进行篡改，如果你是客户端判断，就要修改源代码，如果是服务端判断，就要修改请求

selenium反爬机制以及一些小问题的解决办法

GH_12138的博客

03-13

965

selenium反爬机制以及一些小问题的解决办法

Python+Selenium实现淘宝自动抢购脚本详解

本文标题为“淘宝自动抢购脚本教程[可运行源码]”，描述中明确指出该教程的核心内容是使用Python编程语言结合Selenium库开发一个能够在特定时间自动完成淘宝商品抢购操作的自动化脚本。这一技术方案属于Web自动化...