PYTHON爬虫学习(六) -- selenium模块

本文详细介绍了Selenium模块在爬虫中的应用,包括获取动态数据、模拟登录、处理iframe以及使用动作链。通过实例展示了如何使用Selenium进行网页自动化,如滚动页面、点击元素、执行JS等。此外,还涉及了无头浏览器的配置,用于规避反爬策略。最后,提供了一个12306登录的模拟案例,包括识别点击型验证码的处理流程。

Selenium模块

selenium模块和爬虫之间有什么关联?
	- 便捷的获取网站中动态加载的数据
	- 便捷实现模拟登陆
什么是selenium模块?
	- 基于浏览器自动化的一个模块

selenium使用流程:
	- 环境安装: pip install selenium
	- 下载一个浏览器的驱动程序(谷歌):
		- 下载路径:http://chromedriver.storage.googleapis.com/index.html
		- 驱动程序和浏览器版本的对应关系:http://blog.youkuaiyun.com/huilan_same/article/details/51896672
	- 实例化一个浏览器对象
	- 编写基于浏览器自动化的操作代码
		- 发起请求:get(url)
		- 标签定位:find系列的方法
		- 标签交互:send_key('xxx')
		- 执行js程序:excute_script('jsCode')
		- 前进,后退:back(),forward()
		- 关闭浏览器:quit()
# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver')

#.get()相当于是让浏览器输入一个网址
bro.get('https://www.taobao.com')

#标签定位
#找到搜索框标签(在一个id为q的div中)
search_input = bro.find_element_by_id('q')
#标签交互(相当于在搜索框中输入要搜索的东西)
search_input.send_keys('Iphone')

#执行一组js代码,让浏览器自动滚动页面
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
#document.body.scrollHeight--滚动屏幕大小的高度
sleep(2)
#点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')#根据选择器找
btn.click()#点击

bro.get('https://www.baidu.com')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()

sleep(5)
- selenium处理iframe(嵌套子窗口)
		- 如果定位的标签存在于iframe标签中,则必须使用swith_to.frame(id)
		- 动作链(拖动):from selenium.webdriver import ActionChains
			- 实例化一个动作链对象:action = ActionChains(bro)
			- click_and_hold(div) : 长按且点击操作
			- move_by_offset(x,y)
			- perform()让动作链立即执行
			- action.release()释放动作链对象
# -*- coding: utf-8 -*-
from time import sleep
from selenium import webdriver
from selenium.webdriver import ActionChains#动作链
bro = webdriver.Chrome(executable_path='./chromedriver')

bro.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

#如果定位的标签是存在于iframe标签之中的必须通过如下操作进行标签定位
bro.swithch_to.frame('iframeResult')#切换到对应iframe标签定位的作用域
div = bro.find_element_by_id('draggable')

#动作链
action = ActionChains(bro)
#点击长按指定的标签(click_and_hold)
action.click_and_hold(div)

for i in range(5):
    #perform()--立即执行动作链操作
    #move_by_offset(x,y):x-水平方向,y-竖直方向
    action.move_by_offset(17,0).perform(
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值