先说下 Selenium 是什么?一句话讲是一种自动化测试工具。它支持各种浏览器的驱动,包括 Chrome,Safari,Firefox ,PhantomJS,可以方便地实现Web界面的测试。
由于淘宝页面比较复杂,直接请求比较繁琐,所以使用selenium自动测试工具驱动浏览器完成工作。比如点击、下拉、输入等
目标:
使用Selenium模拟浏览器抓取淘宝商品美食信息,并存储到mongodb
创建webdriver对象
from selenium import webdriver
browser=webdriver.chrome()
得到总共需加载的页码
大多数现代web应用都使用了AJAX技术。当浏览器加载一个页面的时候,该页面内的元素可能在不用的时间间隔内进行加载。这使得元素定位变得比较困难:如果一个元素还没有出现在DOM中,定位函数将会抛出一个ElementNotVisibleException
异常。使用waits
等待可以解决这个问题。等待将会给定位一个元素或者对元素进行一些其他的操作提供一个缓冲的时间。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import re
browser=webdriver.Chrome() #创建webdriver对象
wait=WebDriverWait(browser, 10)
def search():
try:
browser.get('https://www.taobao.com')#打开请求的url
input = wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR,'#q')))#等待搜索输入框加载完成
input.send_keys("美食")#输入框中输入“美食”
sumbit=wait.until(
EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))
sumbit.click()
total=wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))
return total.text
except TimeoutException:
return search
def main():
total=search()
total=int(re.compile('(\d+)').search(total).group(1))
print (total)
if __name__=='__main__':
main()
输出结果:
100
小结:
1.显性等待:WebDriverWait,配合该类的until()和until_not()方法进行的等待。它主要的意思就是:程序每隔xx秒看一眼,如果条件成立了,则执行下一步,否则继续等待,直到超过设置的最长时间,然后抛出TimeoutException。
调用方法如下:
WebDriverWait(driver, 超时时长, 调用频率, 忽略异常).until(可执行方法, 超时时返回的信息)
until()方法参数:
method: 在等待期间,每隔一段时间调用这个传入的方法,直到返回值不是False
message: 如果超时,抛出TimeoutException,将message传入异常
until 中参数method ,用expected_conditions类中的方法:
presence_of_element_located 判断某个元素是否被加到了dom树里
element_to_be_clickable 判断某个元素中是否可见并且是enable的,这样的话才叫clickable
text_to_be_present_in_element 判断某个元素中的text是否包含了预期的字符串
presence_of_all_elements_located: 判断是否至少有1个元素存在于dom树中。举个例子,如果页面上有n个元素的class都是’column-md-3’,那么只要有1个元素存在,这个方法就返回True
- total=int(re.compile(’(\d+)’).search(total).group(1))
相当于
pattern=re.compile(’(\d+)’)
match=re.search(pattern,total)
total=int(match.group(1))
实现翻页
from selenium import webdriver
fro