python爬虫(四)Selenium

本文介绍了如何处理动态网页,通过Selenium和PhantomJS解决JavaScript渲染问题。Selenium是一个Web自动化测试工具,能模拟用户交互,支持在各大浏览器中运行。文章详细讲解了Selenium的安装、基本用法,如处理下拉框、模拟登录、等待策略,以及如何通过Selenium进行元素查找和交互,并提到了cookie的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、动态网页处理

1、很多网站都采用AJAX技术,SPA技术,部分内容都是异步动态加载的。可以提高用户体验,减少不必要的流量,方便CDN加速等;

2、但是,对于爬虫程序爬取到的HTML页面相当于页面模板了,动态内容不在其中

3、解决办法:

      1)如果能构造一个包含JS引擎的浏览器,让它加载网页并和网站交互,我们编程从这个浏览器获取内容包括动态内容。

 

二、PhantomJS

PhantomJS它是一个无头浏览器headless,支持javascript。可以运行在Windows、Linux、Mac OS等。

所谓的无头浏览器,就是包含Js引擎、浏览器排版引擎等核心组件,但是没有和用户交互的界面的浏览器;

使用方法:只需要在官网下载对应操作系统的PhantomJS,解压缩就可以使用了;

 

三、Selenium

它是一个WEB自动化测试工具,它可以直接运行在浏览器中,支持主流的浏览器,包括PhantomJS;

Selenium注意是用来做自动化测试,支持多种浏览器,爬虫中注意用来解决JavaScript渲染问题;

1、安装

$pip install selenium

2、导入

from selenium import webdriver #核心对象

 

四、Selenium简单介绍

1、下拉框处理:Select类

#1、导入
from selenium import webdriver
from selenium.webdriver.support.ui import Select

 

2、模拟登录(模拟键盘操作)

      1)webdriver提供了一系列的 find方法,用户获取一个网页中的元素。元素对象可以使用send_keys模拟键盘输入;

 

3、Selenium等待

Selenium的等待分为:显示等待和隐式等待;

       1)显示等待:指定一个条件,一直等到这个条件成立后执行,也可以设置超时时间,超时会抛异常;

        2)隐式等待:等待特定的时间;

 

五、Selenium的使用

1、声明浏览器对象

from selenium import webdriver

#webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器
browser = webdriver.PhantomJS(path路径)

2、访问页面并获取html

browser.get('https://www.taobao.com')

print(browser.page_source)#browser.page_source是获取网页的全部html
browser.close()

3、查找元素

     1)查找单个元素

input_one = browser.find_element_by_id('q')

    常用的查找方法

find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

   通用方法

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.PhantomJS(path路径)
browser.get('https://www.taobao.com')
input_one = browser.find_element(BY.ID,'q')

   2)查找多个元素,element加s

input_first = browser.find_elements_by_id('q')

4、交互

input = browser.find_element_by_id('q')   #找到搜索框
input.send_keys('iPhone')   #传送入关键词

button = browser.find_element_by_class_name('btn-search')   #找到搜索按钮
button.click()   #模拟点击

   1)获取属性

url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')

print(logo.get_attribute('class'))   #获取属性
browser.close()

    2)获取文本

url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text)   #input.text文本值
browser.close()

5、等待

  1)隐式等待:implicitly_wait
当使用了隐式等待的时候,如果 WebDriver没有在 DOM中找到元素,将继续等待,超出设定时间后则抛出找不到元素的异常,
换句话说,当查找元素或元素并没有立即出现的时候,隐式等待将等待一段时间再查找 DOM,默认的时间是0
from selenium import webdriver

browser = webdriver.Chrome()
browser.implicitly_wait(10)   #等待十秒加载不出来就会抛出异常,10秒内加载出来正常返回
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)
  2)显示等待:WebDriverWait
指定一个等待条件,和一个最长等待时间,程序会判断在等待时间内条件是否满足,如果满足则返回,如果不满足会继续等待,超过时间就会抛出异常

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.PhantomJS(path路径)
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
显示等待条件
title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出,传入定位元组,如(By.ID, 'p')
visibility_of_element_located 元素可见,传入定位元组
visibility_of 可见,传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
element_to_be_selected 元素可选择,传元素对象
element_located_to_be_selected 元素可选择,传入定位元组
element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
alert_is_present 是否出现Alert

六、cookie

browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies())  #获得cookies
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})  #添加cookies
print(browser.get_cookies())
browser.delete_all_cookies()   #删除cookies
print(browser.get_cookies())

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值