一、动态网页处理
1、很多网站都采用AJAX技术,SPA技术,部分内容都是异步动态加载的。可以提高用户体验,减少不必要的流量,方便CDN加速等;
2、但是,对于爬虫程序爬取到的HTML页面相当于页面模板了,动态内容不在其中;
3、解决办法:
1)如果能构造一个包含JS引擎的浏览器,让它加载网页并和网站交互,我们编程从这个浏览器获取内容包括动态内容。
二、PhantomJS
PhantomJS它是一个无头浏览器headless,支持javascript。可以运行在Windows、Linux、Mac OS等。
所谓的无头浏览器,就是包含Js引擎、浏览器排版引擎等核心组件,但是没有和用户交互的界面的浏览器;
使用方法:只需要在官网下载对应操作系统的PhantomJS,解压缩就可以使用了;
三、Selenium
它是一个WEB自动化测试工具,它可以直接运行在浏览器中,支持主流的浏览器,包括PhantomJS;
Selenium注意是用来做自动化测试,支持多种浏览器,爬虫中注意用来解决JavaScript渲染问题;
1、安装
$pip install selenium
2、导入
from selenium import webdriver #核心对象
四、Selenium简单介绍
1、下拉框处理:Select类
#1、导入
from selenium import webdriver
from selenium.webdriver.support.ui import Select
2、模拟登录(模拟键盘操作)
1)webdriver提供了一系列的 find方法,用户获取一个网页中的元素。元素对象可以使用send_keys模拟键盘输入;
3、Selenium等待
Selenium的等待分为:显示等待和隐式等待;
1)显示等待:指定一个条件,一直等到这个条件成立后执行,也可以设置超时时间,超时会抛异常;
2)隐式等待:等待特定的时间;
五、Selenium的使用
1、声明浏览器对象
from selenium import webdriver
#webdriver可以认为是浏览器的驱动器,要驱动浏览器必须用到webdriver,支持多种浏览器
browser = webdriver.PhantomJS(path路径)
2、访问页面并获取html
browser.get('https://www.taobao.com')
print(browser.page_source)#browser.page_source是获取网页的全部html
browser.close()
3、查找元素
1)查找单个元素
input_one = browser.find_element_by_id('q')
常用的查找方法
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector
通用方法
from selenium import webdriver
from selenium.webdriver.common.by import By
browser = webdriver.PhantomJS(path路径)
browser.get('https://www.taobao.com')
input_one = browser.find_element(BY.ID,'q')
2)查找多个元素,element加s
input_first = browser.find_elements_by_id('q')
4、交互
input = browser.find_element_by_id('q') #找到搜索框
input.send_keys('iPhone') #传送入关键词
button = browser.find_element_by_class_name('btn-search') #找到搜索按钮
button.click() #模拟点击
1)获取属性
url = 'https://www.zhihu.com/explore'
browser.get(url)
logo = browser.find_element_by_id('zh-top-link-logo')
print(logo.get_attribute('class')) #获取属性
browser.close()
2)获取文本
url = 'https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('zu-top-add-question')
print(input.text) #input.text文本值
browser.close()
5、等待
1)隐式等待:implicitly_wait 当使用了隐式等待的时候,如果 WebDriver没有在 DOM中找到元素,将继续等待,超出设定时间后则抛出找不到元素的异常, 换句话说,当查找元素或元素并没有立即出现的时候,隐式等待将等待一段时间再查找 DOM,默认的时间是0
from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10) #等待十秒加载不出来就会抛出异常,10秒内加载出来正常返回
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('zu-top-add-question')
print(input)
2)显示等待:WebDriverWait 指定一个等待条件,和一个最长等待时间,程序会判断在等待时间内条件是否满足,如果满足则返回,如果不满足会继续等待,超过时间就会抛出异常
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.PhantomJS(path路径)
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
显示等待条件
title_is 标题是某内容
title_contains 标题包含某内容
presence_of_element_located 元素加载出,传入定位元组,如(By.ID, 'p')
visibility_of_element_located 元素可见,传入定位元组
visibility_of 可见,传入元素对象
presence_of_all_elements_located 所有元素加载出
text_to_be_present_in_element 某个元素文本包含某文字
text_to_be_present_in_element_value 某个元素值包含某文字
frame_to_be_available_and_switch_to_it frame加载并切换
invisibility_of_element_located 元素不可见
element_to_be_clickable 元素可点击
staleness_of 判断一个元素是否仍在DOM,可判断页面是否已经刷新
element_to_be_selected 元素可选择,传元素对象
element_located_to_be_selected 元素可选择,传入定位元组
element_selection_state_to_be 传入元素对象以及状态,相等返回True,否则返回False
element_located_selection_state_to_be 传入定位元组以及状态,相等返回True,否则返回False
alert_is_present 是否出现Alert
六、cookie
browser.get('https://www.zhihu.com/explore')
print(browser.get_cookies()) #获得cookies
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'}) #添加cookies
print(browser.get_cookies())
browser.delete_all_cookies() #删除cookies
print(browser.get_cookies())