爬虫3：html页面+webdriver模块+demo

最新推荐文章于 2025-09-11 23:47:28 发布

转载最新推荐文章于 2025-09-11 23:47:28 发布 · 77 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/rongyux/p/5513780.html

文章标签：

#爬虫 #python

本文介绍了一种利用Selenium WebDriver模块进行网页爬取的方法，尤其适用于那些通过常规HTTP请求难以获取信息的保密性较强的网站。文章详细展示了如何初始化浏览器、加载页面并抓取特定元素的过程。

　　保密性好的网站，不能使用request请求页面信息，这样可以使用webdriver模块先开启一个浏览器，然后爬去信息，甚至还可以click等操作对页面操作，再爬取。

　　demo 一般流程：

　　1）包含selenium 模块

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

　　2）设置采用火狐浏览器（chrome也可以）

driver = webdriver.Firefox()

　　3）get方式打开（为了保密，url省略）

driver.get("http://www.---------------")

　　4）css方式筛选

elements = driver.find_elements_by_css_selector("span.c9.ng-binding")

　　5）由于webdriver模块的筛选功能不是很好用，这里推荐转成html形式，然后使用beautifulsoap筛选

html = driver.page_source

　　6）BeautifulSoup筛选信息-find_all 和 css 选择器方式更好用

from bs4 import BeautifulSoup
import re

soup = BeautifulSoup(html)
# soup.find_all('div',text=re.compile(u"信息"))[0]
for i in soup.select('a[href*="human"]'):
    print i

转载于:https://www.cnblogs.com/rongyux/p/5513780.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33691700

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【网络与爬虫 39】Crawlee现代爬虫革命：TypeScript驱动的智能数据采集框架

熵数实验室

08-03

1753

Crawlee是Apify开源的下一代网页爬虫和自动化库，基于TypeScript构建，提供了开箱即用的反爬虫能力、智能重试机制和强大的浏览器自动化功能。本文将深入解析Crawlee的核心特性、架构设计和实战应用，帮助开发者快速掌握这个现代化的爬虫解决方案，构建高效稳定的数据采集系统。

使用DeepSeek+本地知识库，尝试从0到1搭建高度定制化工作流（爬虫模块篇）

m0_50111178的博客

02-15

1479

使用DeepSeek+本地知识库，尝试从0到1搭建高度定制化工作流（爬虫模块篇）

参与评论您还未登录，请先登录后发表或查看评论

Chrome保存网页为mhtml格式

Hansel的专栏

06-19

6921

打开chrome，在地址栏输入chrome://flags

Python 使用win32 保存成 mhtml

qq_36449202的博客

08-15

1779

from selenium import webdriver import time import win32api import win32con #测试网址 news_url="自定义一个url吧" #打开另存为mhtml功能 options=webdriver.ChromeOptions() options.add_argument('--save-page-as-mhtml') #设置c...

解决：使用selenium+python+webdriver采集不到当前页面html元素？

Owen_goodman的博客

07-29

3030

问题：当我们在使用selenium自动化工具采集数据时，自动跳转到需求页进行采集数据时，发现得到的页面数据不符，这是什么原因呢？思路：打开多个页面后，如果我们当前句柄不在当前打开页面时候，我们就无法获取需求页面元素解决方法： 1 方法一场景：打开多个窗口，需要定位到新打开的窗口 # 获取打开的多个窗口句柄 windows = driver.window_handles # 切换到当前最新打开的窗口 driver.switch_to.window(windows[-1]) 注

【WebDriver】selenium使用CSS定位页面元素

热门推荐

galen2016的博客

05-04

2万+

一、CSS简介 CSS 指层叠样式表 (Cascading Style Sheets) CSS 选择器参考手册：http://www.w3school.com.cn/cssref/css_selectors.asp CSS选择器常见语法：二、定位实例 1、以如下html定位为例： css locate

前端爬虫+可视化Demo

starry-sea1412的弃坑之路

03-04

2521

爬虫就是一个探测程序，它的基本功能就是模拟人的行为去各个网站转悠，点点按钮，找找数据，或者把看到的信息背回来。使用的百度和Google，其实就是利用了这种爬虫技术: 每天放出无数爬虫到各个网站，把他们的信来，存到数据库中等用户来检索。以https://www.itheima.com/teacher.html#aweb 网站目标为例，下载图片。在现实中几乎所有行业的网站都会被爬虫所“骚扰”，而这些骚扰都是为了方便用户。可以把互联网比做成一张 “大网”，爬虫就是在这张大网上不断爬取信息的程序。

python+selenium爬虫笔记

zhk

01-04

1868

python+selenium爬虫笔记

地球上最好用的爬虫框架：Scrapy异步爬虫框架:

m0_72458808的博客

06-09

1640

在scrapy中，具体工作流程是这样的：当scrapy框架启动时，首先引擎会到爬虫中获取起始URL, 当引擎获取到起始url 后，会将这个url封装成一个Request 请求对象交给调度器而这个调度器拥有两个功能，过滤器就是过滤掉已经完成的请求对象，而请求队列则是维护了一个很多请求对象的队列，言归正传，调度器会再次将请求队列中的Request 请求对象通过引擎交给。

node 前端爬虫 + 可视化

每天都要努力学习哦~~

06-24

2346

可以把互联网比做成一张大网，爬虫就是在这张大网上不断爬取信息的程序。

Py爬虫+Py简易系统+星火大模型调用

2301_78082941的博客

07-11

1336

Py爬虫+Py简易系统+星火大模型调用，期末实战项目

从webdriver获取html报错,webdriver 中使用JavaScript

weixin_34379088的博客

06-07

496

selenium并不是万能的，有时候页面上操作无法实现的，这时候就需要借助JS来完成了。一种常见的场景当页面上的元素超过一屏后，想操作屏幕下方的元素，是不能直接定位到，会报元素不可见的。这时候需要借助滚动条来拖动屏幕，使被操作的元素显示在当前的屏幕上。滚动条是无法直接用定位工具来定位的。selenium里面也没有直接的方法去控制滚动条，这时候只能借助JS了，在开发者调试工具控制台中JS操作示例如下...

告别IP被封！分布式爬虫的“隐身”与“分身”术

weixin_44617651的博客

09-09

545

咱们平时上网爬数据，最头疼的就是IP被封。单台机器猛刷，网站一眼就能识破。想把活儿干得又快又稳，就得把任务拆开，让多台机器或多个进程一起干，每个还用不同的IP出口——这就好比让一群人轮流换装去排队，既减轻压力又降低风险。

Python单元测试（unittest）实战指南

最新发布

2301_76347103的博客

09-11

538

Python为网络爬虫开发提供了全面而强大的工具生态系统。从简单的数据收集任务到复杂的分布式爬虫系统，Python都能胜任。初学者建议从Requests和BeautifulSoup开始，掌握基础后再逐步学习Scrapy等高级框架和异步编程技术。最重要的是，始终牢记爬虫开发的伦理和法律边界，做负责任的网络公民。只有在合法合规的前提下，爬虫技术才能发挥其真正的价值。

用Python破解简单的替换密码

L9rHmlWzW的博客

09-11

452

云手机怎样进行自动化运行？

wanhengidc的博客

09-10

197

将需自动化运行的应用安装到云手机中，可通过云手机平台提供的应用上传功能，将本地应用APK文件上传安装；有些需通过特定客户端连接云手机后上传。查看平台过往运营情况、用户评价，不稳定平台易出现断网、掉线等问题，影响自动化任务连续性，像需24小时挂机的自动化营销任务，若云手机频繁掉线，不仅任务无法完成，还可能导致账号异常。对于需频繁执行的任务，合理设置频率，如自动化采集数据任务，若采集频率过高可能触发网站反爬虫机制，过低则影响数据及时性，可根据目标网站限制和实际需求，设置每10分钟采集一次数据。

Python面向对象编程（OOP）终极指南

2301_76347103的博客

09-11

854

如何为开源Python项目做贡献？

L9rHmlWzW的博客

09-11

533

CukeIt: 利用Cucumber+watirwebdriver进行自动化测试

3. Cucumber+watirwebdriver 使用Cucumber和watirwebdriver结合，开发者可以编写易于理解的测试脚本，这些脚本描述了软件应该如何工作，而不仅仅是底层的测试步骤。webdriver是与浏览器交互的API，它能够驱动浏览器...