selenium+phantomjs/Chrome强大网络爬虫组合

本文介绍Selenium这一Web自动化测试工具的基本概念、安装方法及常用操作技巧,涵盖PhantomJS无头浏览器与Chromedriver的配置流程,适合初学者快速上手。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.selenium

1.定义: Web自动化测试工具,用于Web自动化测试
2.特点

  1. 可运行在浏览器,根据指定命令操作浏览器,让浏览器自动加载页面
  2. 只是工具,必须与第三方浏览器结合使用
    3.安装selenium
    Anaconda Prompt: conda install selenium

2.phantomjs浏览器

1.定义: 无界面浏览器(无头浏览器)
2.特点: 把网站在内存进行页面加载,运行高效
3.安装
~~1.下载对应安装包(.exe),将文件放到Python安装的Scripts目录下

3.chromedriver安装

1.下载网址
https://chromedriver.storage.googleapis.com/index.html
2.安装
1.查看本机Chrome浏览器版本
设置-帮助-关于Google Chrome
2.下载对应版本的chromedrive.exe(notes.txt)
3.拷贝到Python安装目录的Scripts目录下
4.cmd终端: chromedriver -v 查看版本信息

4.常用方法

1.driver.get(url)
2.driver.page_source : 获取响应的html源码
3.driver.page_source.find(‘字符串’)
作用:从html源码中搜索指定字符串
-1 : 查找失败

4.单元素查找(返回值为一个节点对象)

  1. driver.find_element_by_id(’’).text
  2. driver.find_element_by_name(’’)
  3. driver.find_element_by_class_name(’’)
  4. driver.find_element_by_xpath(‘表达式’)

5.多元素查找(节点对象的列表)

  1. driver.find_elements_by_…(’’)

6.节点对象.send_keys('内容)
7.节点对象.click()
8.driver.quit()

chromedriver设置无界面模式

1.opt = webdriver.ChromeOptions()
2.opt.set_headless()
3.driver = webdriver.Chrome(options=opt)

6.浏览器对象driver执行JS脚本

执行JS脚本,进度条拉到最下面

driver.execute_script(
‘window.scrollTo(0,document.body.scrollHeight)’
)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值