爬虫基础04 selenium

yyyyhjjj

已于 2023-08-21 09:30:23 修改

阅读量927

点赞数

分类专栏：爬虫基础文章标签：爬虫 selenium python

于 2023-08-21 09:29:15 首次发布

本文链接：https://blog.youkuaiyun.com/qq_46320417/article/details/132401203

版权

在使用selenium之前必须先配置浏览器对应版本的webdriver。

1. 初始化浏览器对象

from selenium.webdriver import Chrome

# 创建浏览器对象，并且打开一个空的页面
browser = Chrome()

# 关闭浏览器
browser.close()

2. 访问指定网页

from selenium import webdriver
 
# 初始化浏览器为chrome浏览器
browser = webdriver.Chrome()
 
# 访问百度首页
browser.get(r'https://www.baidu.com/')

# 浏览器截图
browser.get_screenshot_as_file('截图.png')
 
# 关闭浏览器
browser.close()

3. 设置浏览器大小

from selenium import webdriver
import time

browser = webdriver.Chrome()

# 设置浏览器大小：全屏
browser.maximize_window()
browser.get(r'https://www.baidu.com')
time.sleep(2)

# 设置分辨率 500*500
browser.set_window_size(500, 500)
time.sleep(2)

# 设置分辨率 1000*800
browser.set_window_size(1000, 800)
time.sleep(2)

# 关闭浏览器
browser.close()

4. 刷新页面

from selenium import webdriver
import time  
 
browser = webdriver.Chrome()
 
# 设置浏览器全屏
browser.maximize_window()   
browser.get(r'https://www.baidu.com')  
time.sleep(2)
 
try:
    # 刷新页面
    browser.refresh()  
    print('刷新页面')
except Exception as e:
    print('刷新失败')
   
# 关闭浏览器
browser.close()

5. 前进和后退

from selenium import webdriver
import time  
 
browser = webdriver.Chrome()
 
# 设置浏览器全屏
browser.maximize_window()   
browser.get(r'https://www.baidu.com')  
time.sleep(2)
 
# 打开淘宝页面
browser.get(r'https://www.taobao.com')  
time.sleep(2)
 
# 后退到百度页面
browser.back()  
time.sleep(2)
 
# 前进到淘宝页面
browser.forward() 
time.sleep(2)
 
# 关闭浏览器
browser.close()

6. 获取页面基本属性

from selenium import webdriver

browser = webdriver.Chrome()
browser.get(r'https://www.baidu.com')

# 网页标题
print(browser.title)
# 当前网址
print(browser.current_url)
# 浏览器名称
print(browser.name)
# 网页源码
print(browser.page_source)

7. 定位标签

#获取标签
'''
浏览器对像.finde_elements(获取方式，值) -根据指定方式查找所有满足条件的标签，返回一个列表，列表中元素是标签对象
浏览器对象.find_element(获取方式，值)  -根据指定方式查找第一个满足条件的标签返回一个标签对象
获取方式:
By.ID     -根据标签的ID属性值获取标签
By.CLASS_NAME    -根据标签的class属性值获取标签
By.CSS_SELECTOR   -根据css选择器获取标签
By.LINL_TEXT     -根据a标签内容获取标签（只能a)
'''
browser.find_element(By.ID,'kw')
browser.find_element(By.NAME,'wd')
browser.find_element(By.CLASS_NAME,'s_ipt')
browser.find_element(By.TAG_NAME,'input')
browser.find_element(By.LINK_TEXT,'新闻')
browser.find_element(By.PARTIAL_LINK_TEXT,'闻')
browser.find_element(By.XPATH,'//*[@id="kw"]')
browser.find_element(By.CSS_SELECTOR,'#kw')

8. get_attribute获取标签属性

from selenium import webdriver
from selenium.webdriver.common.by import By

browser = webdriver.Chrome()

browser.get(r'https://www.baidu.com')

# 通过class属性值获取标签
logo = browser.find_element(By.CLASS_NAME,

最低0.47元/天解锁文章