Selenium模块
selenium模块和爬虫之间有什么关联?
- 便捷的获取网站中动态加载的数据
- 便捷实现模拟登陆
什么是selenium模块?
- 基于浏览器自动化的一个模块
selenium使用流程:
- 环境安装: pip install selenium
- 下载一个浏览器的驱动程序(谷歌):
- 下载路径:http://chromedriver.storage.googleapis.com/index.html
- 驱动程序和浏览器版本的对应关系:http://blog.youkuaiyun.com/huilan_same/article/details/51896672
- 实例化一个浏览器对象
- 编写基于浏览器自动化的操作代码
- 发起请求:get(url)
- 标签定位:find系列的方法
- 标签交互:send_key('xxx')
- 执行js程序:excute_script('jsCode')
- 前进,后退:back(),forward()
- 关闭浏览器:quit()
# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver')
#.get()相当于是让浏览器输入一个网址
bro.get('https://www.taobao.com')
#标签定位
#找到搜索框标签(在一个id为q的div中)
search_input = bro.find_element_by_id('q')
#标签交互(相当于在搜索框中输入要搜索的东西)
search_input.send_keys('Iphone')
#执行一组js代码,让浏览器自动滚动页面
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
#document.body.scrollHeight--滚动屏幕大小的高度
sleep(2)
#点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')#根据选择器找
btn.click()#点击
bro.get('https://www.baidu.com')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()
sleep(5)
- selenium处理iframe(嵌套子窗口)
- 如果定位的标签存在于iframe标签中,则必须使用swith_to.frame(id)
- 动作链(拖动):from selenium.webdriver import ActionChains
- 实例化一个动作链对象:action = ActionChains(bro)
- click_and_hold(div) : 长按且点击操作
- move_by_offset(x,y)
- perform()让动作链立即执行
- action.release()释放动作链对象
# -*- coding: utf-8 -*-
from time import sleep
from selenium import webdriver
from selenium.webdriver import ActionChains#动作链
bro = webdriver.Chrome(executable_path='./chromedriver')
bro.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')
#如果定位的标签是存在于iframe标签之中的必须通过如下操作进行标签定位
bro.swithch_to.frame('iframeResult')#切换到对应iframe标签定位的作用域
div = bro.find_element_by_id('draggable')
#动作链
action = ActionChains(bro)
#点击长按指定的标签(click_and_hold)
action.click_and_hold(div)
for i in range(5):
#perform()--立即执行动作链操作
#move_by_offset(x,y):x-水平方向,y-竖直方向
action.move_by_offset(17,0).perform(

本文详细介绍了Selenium模块在爬虫中的应用,包括获取动态数据、模拟登录、处理iframe以及使用动作链。通过实例展示了如何使用Selenium进行网页自动化,如滚动页面、点击元素、执行JS等。此外,还涉及了无头浏览器的配置,用于规避反爬策略。最后,提供了一个12306登录的模拟案例,包括识别点击型验证码的处理流程。
最低0.47元/天 解锁文章
1100

被折叠的 条评论
为什么被折叠?



