PYTHON爬虫学习(六) -- selenium模块

最新推荐文章于 2025-01-22 09:41:36 发布

原创

最新推荐文章于 2025-01-22 09:41:36 发布 · 278 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#python

本文详细介绍了Selenium模块在爬虫中的应用，包括获取动态数据、模拟登录、处理iframe以及使用动作链。通过实例展示了如何使用Selenium进行网页自动化，如滚动页面、点击元素、执行JS等。此外，还涉及了无头浏览器的配置，用于规避反爬策略。最后，提供了一个12306登录的模拟案例，包括识别点击型验证码的处理流程。

Selenium模块

selenium模块和爬虫之间有什么关联？
	- 便捷的获取网站中动态加载的数据
	- 便捷实现模拟登陆
什么是selenium模块？
	- 基于浏览器自动化的一个模块

selenium使用流程:
	- 环境安装: pip install selenium
	- 下载一个浏览器的驱动程序(谷歌)：
		- 下载路径：http://chromedriver.storage.googleapis.com/index.html
		- 驱动程序和浏览器版本的对应关系：http://blog.youkuaiyun.com/huilan_same/article/details/51896672
	- 实例化一个浏览器对象
	- 编写基于浏览器自动化的操作代码
		- 发起请求：get(url)
		- 标签定位：find系列的方法
		- 标签交互：send_key('xxx')
		- 执行js程序：excute_script('jsCode')
		- 前进，后退：back(),forward()
		- 关闭浏览器：quit()

# -*- coding: utf-8 -*-
from selenium import webdriver
from time import sleep
bro = webdriver.Chrome(executable_path='./chromedriver')

#.get()相当于是让浏览器输入一个网址
bro.get('https://www.taobao.com')

#标签定位
#找到搜索框标签(在一个id为q的div中)
search_input = bro.find_element_by_id('q')
#标签交互(相当于在搜索框中输入要搜索的东西)
search_input.send_keys('Iphone')

#执行一组js代码，让浏览器自动滚动页面
bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
#document.body.scrollHeight--滚动屏幕大小的高度
sleep(2)
#点击搜索按钮
btn = bro.find_element_by_css_selector('.btn-search')#根据选择器找
btn.click()#点击

bro.get('https://www.baidu.com')
sleep(2)
#回退
bro.back()
sleep(2)
#前进
bro.forward()

sleep(5)

- selenium处理iframe(嵌套子窗口)
		- 如果定位的标签存在于iframe标签中，则必须使用swith_to.frame(id)
		- 动作链(拖动)：from selenium.webdriver import ActionChains
			- 实例化一个动作链对象：action = ActionChains(bro)
			- click_and_hold(div) : 长按且点击操作
			- move_by_offset(x,y)
			- perform()让动作链立即执行
			- action.release()释放动作链对象

# -*- coding: utf-8 -*-
from time import sleep
from selenium import webdriver
from selenium.webdriver import ActionChains#动作链
bro = webdriver.Chrome(executable_path='./chromedriver')

bro.get('http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable')

#如果定位的标签是存在于iframe标签之中的必须通过如下操作进行标签定位
bro.swithch_to.frame('iframeResult')#切换到对应iframe标签定位的作用域
div = bro.find_element_by_id('draggable')

#动作链
action = ActionChains(bro)
#点击长按指定的标签(click_and_hold)
action.click_and_hold(div)

for i in range(5):
    #perform()--立即执行动作链操作
    #move_by_offset(x,y):x-水平方向，y-竖直方向
    action.move_by_offset(17,0).perform(