selenium爬取网页的性能问题

高性能网页抓取：一台台式机的极限

最新推荐文章于 2025-04-10 23:00:51 发布

原创最新推荐文章于 2025-04-10 23:00:51 发布 · 910 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫

selenium使用笔记专栏收录该内容

5 篇文章

订阅专栏

本文探讨了一台配置为4C*8GB的台式机如何实现每小时6-8000个网页的抓取速度，包括优化策略、遇到的挑战以及对难抓取网站的应对措施。

5个浏览器窗口（5个线程），每小时3000个网页，理论上一台4C*8GB的台式机能达到每小时6-8000的网页（除掉带宽/对方防爬和对方服务器性能优越），对难搞的网站抓取性能还是不错的！

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_18228

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

用selenium爬取csdn博客文章，并用4种方法提取数据

数据知道的博客

06-15

3万+

为了方便学习selenium，下面代码用selenium爬取博客文章的标题和时间，并用selenium自带的解析，etree，bs4，scrapy框架自带的selector等4种方式来解析网页数据；当然，请求库还可以使用urllib，requests；也可以用aiohttp来实现异步爬取，用Splash实现动态渲染页面的抓取。 # -*- encoding: utf-8 -*- from selenium import webdriver from selenium.webdriver.chro

Python爬虫实战：使用Selenium爬取知乎动态加载内容的全流程详解

最新发布

2201_76125261的博客

06-02

642

支持Chrome、Firefox、Edge等主流浏览器通过WebDriver实现浏览器操作接口支持元素定位、执行JS脚本、模拟鼠标键盘事件支持无头浏览器模式提升性能显式等待（Explicit Wait）保证页面元素加载完毕滚动模拟触发懒加载处理异步请求，控制爬取节奏。

参与评论您还未登录，请先登录后发表或查看评论

还是爬虫，使用的是selenium，爬取的是智联，爬取速度灰常慢...

weixin_34365635的博客

10-11

441

# -*-coding:utf-8-*-# 2017-10-11 建小国from selenium import webdriverimport json, time, xlwtclass Zhilian(object): def __init__(self): # 第一页智联北京 python self.url = 'http://sou.zhaopin.c...

Python selenium get页面很慢时，处理办法

标题

07-04

1万+

在执行脚本时，driver.get("url") ，如果当前的url页面内容较多加载特别慢，很费时间，但是我们需要操作的元素已经加载出来，可以将页面加载停掉，不影响后面的脚本执行，解决办法设置页面加载timeout，get操作： try get except 脚本window.stop(), 使用GeckoDriver上有效果，但是在ChromeDriver上还是会有问题，抛出异常timeout...

Selenium并行启动多个浏览器

weixin_30629977的博客

05-28

2305

如果你对Selenium自动化测试已经非常熟悉，你仅仅需要一个快速上手来使程序运行起来。本章节的内容能满足不同的技术层次，但是如果你仅仅需要一个可以快速上手的指引，那么就显得有点多。如果是这样，你可以参考 Selenium Wiki 的相关文章。　　什么是 Selenium-Grid ? 　　Selenium-Grid 允许你在多台机器的多个浏览器上并行的进行测试，也...

selenium 爬取中国经济社会发展数据库数据 (2)优化爬取速度和解决StaleElementReferenceException

Cmmmmm丶的博客

06-07

725

求点赞！！！求点赞！！！求点赞！！！上一版本的爬取测试代码在这添加链接描述对上一版本进行了一些测试，主要问题有两个用time.sleep()作为固定等待时长导致了爬取速度过慢，同时，也有可能存在网速问题等客观因素导致的抛错在进行大量数据爬取时，会抛出StaleElementReferenceException错误对代码进行了一些优化 def find_table(indicator, region, year): wait = WebDriverWait(

selenium firefox 内存速度优化

diangang3082的博客

06-23

1452

selenium firefox 内存速度优化 2 23 profile = webdriver.FirefoxProfile() 2 24 profile.set_preference("permissions.default.image", 2) ...

【网络爬虫】基于Selenium爬取动态网页

YangMax1的博客

12-04

1万+

目录一、Selenium介绍与配置1.Selenium简介2. Selenium+Python环境配置二、网页自动化测试1.启动浏览器并打开百度搜索2.定位元素三、爬取动态网页的名人名言1. 网页数据分析2. 翻页分析3.爬取数据的存储4. 爬取数据四、爬取京东网站书籍信息五、总结六、参考一、Selenium介绍与配置 1.Selenium简介 Selenium 是ThoughtWorks专门为Web应用程序编写的一个验收测试工具。Selenium测试直接运行在浏览器中，可以模拟真实用户的行为。支持的

python Selenium爬取数据代码学习冲！！！

JM1307hhh的博客

03-04

486

【51job代码】python Selenium学习

Python爬虫教程：使用Selenium抓取动态网页内容

2201_76125261的博客

04-10

1285

Selenium是一个开源的自动化测试工具，用于Web应用的自动化操作。Selenium支持多种编程语言，包括Python、Java、C#等。它能够模拟浏览器中的各种操作，如点击、输入、滚动、抓取页面内容等。通过使用Selenium，爬虫可以在实际的浏览器环境中运行，从而获取动态加载的数据。在本文中，我们详细介绍了如何使用Selenium抓取动态加载的网页内容。通过模拟浏览器的行为，Selenium能够处理JavaScript渲染的页面，抓取动态加载的内容。

易Selenium

02-28

易Selenium

易+自动化专题：第一课：自动化概论（易语言实战编程应用）

09-30

易+自动化专题：第一课：自动化概论（易语言实战编程应用）

使用selenium设置firefox不加载图片增加加载速度提高爬虫效率

热门推荐

东方佑

11-27

17万+

from selenium import webdriver options=webdriver.FirefoxProfile() options.set_preference(‘permissions.default.image’,2) b=webdriver.Firefox(options) b.get(‘http://image.baidu.com/’)

Selenium和Firefox对应版本及注意事项

王德超

03-21

3万+

【Selenium】 -> 【FireFox】 2.25.0 -> 18 2.30.0 -> 19 2.31.0 -> 20 2.42.2 -> 29 2.44.0 -> 33 (不支持31) 2.53.0

Firefox浏览器的启动速度优化

Out Of Date>搬家到http://imee.cn了

09-28

193

在地址栏中输入： about:config 1.右击鼠标－新建－布尔（boolean)项，输入：config.trim_on_minimize,并设置为true。作用：这样就可以在最小化时自动释放内存。 2.在过滤器栏输入：browser.sessionhistory.max_total_viewers，双击该项，修改值为5或更小。作用：页面快进/快退功能中保存的页面...

selenium提升效率_selenium 执行效率

weixin_39968995的博客

12-19

999

场景：Selenium自动化,加快IE浏览器自动化执行效率Selenium自动化,加速IE浏览器自动化执行效率加速IE浏览器自动化执行效率：Selenium自动化中DOM，XPATH，CSS定位Web页面对象的优劣性分析技术背景在Web应用中，用户通过键盘在输入框中输入值和鼠标点击按钮，链接等。比如在用户名输入框和密码输入框输入正确的用户名和密码，然后点击登录按钮进行登录。在Selenium自动化...

Python—selenium爬取快代理

qq_39022311的博客

11-17

674

本篇使用 selenium技术爬取快代理上的代理IP，并判断其是否可用。 #爬取代理IP from selenium import webdriver from selenium.webdriver.common.proxy import Proxy from selenium.webdriver.common.proxy import ProxyType from selenium.webd...

【Selenium】提高测试&爬虫效率：Selenium与多线程的完美结合

苟日新，日日新，又日新!!!

06-01

1万+

本文章介绍了 Selenium + threading 和 Selenium + ThreadPoolExecutor 结合来创建多个浏览器或多个标签页的操作。提供代码模板，拿来即用

Python爬虫——Selenium在获取网页数据方面的使用

m0_73716246的博客

09-07

1万+

Selenium 可以实现，它本身是一款自动化测试工具，可以打开浏览器，像人一样操作浏览器，人们可以从 Selenium 中直接提取到网页上的各种信息，因为网页信息对于 Selenium 来说是透明的，其本质就是运行一个浏览器。selenium使用便捷，易于编写，可以屏蔽许多js加密、解密问题，但是其运行速度较慢，且一些网站会针对通过 selenium 方法进行的访问做反爬，所以使用的时候并不是万能的。打开浏览器，这里可以选择年份（需要点击），这是通过网页的 select 标签存放的。

selenium爬取太慢

03-14

### 提高Selenium网页抓取速度的方法为了提升Selenium在网页抓取过程中的效率并减少资源消耗，可以从多个角度入手。以下是几个主要策略： #### 1. 减少不必要的渲染通过无头模式运行浏览器可以显著加快爬取速度。无头模式下，浏览器不会显示图形界面，因此减少了渲染时间。启用无头模式可以通过设置选项完成[^1]。 ```python from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument("--headless") # 启用无头模式 driver = webdriver.Chrome(options=chrome_options) ``` #### 2. 动态等待代替固定等待动态等待可以根据特定条件自动结束等待，而不需要固定的延时，这有助于节省大量时间。使用`WebDriverWait`配合`expected_conditions`模块能够更高效地定位元素[^2]。 ```python from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC wait = WebDriverWait(driver, timeout=10) element = wait.until(EC.presence_of_element_located((By.ID, "example"))) ``` #### 3. 避免全页加载如果目标数据仅存在于部分区域，则无需等待整个页面完全加载即可提取所需信息。利用JavaScript禁用某些功能（如图片预览或视频播放），也可以加速页面响应[^4]。 ```javascript // 使用 execute_script 方法关闭图像加载 driver.execute_script(""" Object.defineProperty(HTMLImageElement.prototype, 'src', { set: function(value) {} }); """) ``` #### 4. 控制窗口大小与位置调整浏览器窗口尺寸至最小必要范围同样能改善性能表现。较小的视口意味着较少的内容需要被绘制出来。 ```python driver.set_window_size(800, 600) # 设置窗口大小为宽800px，高600px ``` #### 5. 并行化请求对于多任务场景来说，并发执行多个实例可能是一个不错的选择。不过需要注意的是，过多的同时连接可能会触发反爬机制或者增加服务器负担。 ---