使用Selenium模拟浏览器抓取淘宝商品美食信息（总结）

最新推荐文章于 2020-09-29 21:04:57 发布

原创

最新推荐文章于 2020-09-29 21:04:57 发布 · 323 阅读

2 ·

CC 4.0 BY-SA版权

本文介绍了如何使用Selenium自动化测试工具来模拟浏览器抓取淘宝商品美食信息。通过创建webdriver对象，确定总页数，实现翻页，获取每个页面的商品，并将数据存储到MongoDB数据库。在抓取过程中，利用WebDriverWait进行显性等待，确保元素加载完成。最终，文章提到了从Chrome转用PhantomJS避免显示浏览器界面，并提供了MongoDB的安装和配置参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先说下 Selenium 是什么？一句话讲是一种自动化测试工具。它支持各种浏览器的驱动，包括 Chrome，Safari，Firefox ,PhantomJS，可以方便地实现Web界面的测试。
由于淘宝页面比较复杂，直接请求比较繁琐，所以使用selenium自动测试工具驱动浏览器完成工作。比如点击、下拉、输入等

目标：
使用Selenium模拟浏览器抓取淘宝商品美食信息，并存储到mongodb

创建webdriver对象

from selenium import webdriver
browser=webdriver.chrome()

得到总共需加载的页码

大多数现代web应用都使用了AJAX技术。当浏览器加载一个页面的时候，该页面内的元素可能在不用的时间间隔内进行加载。这使得元素定位变得比较困难：如果一个元素还没有出现在DOM中，定位函数将会抛出一个ElementNotVisibleException异常。使用waits等待可以解决这个问题。等待将会给定位一个元素或者对元素进行一些其他的操作提供一个缓冲的时间。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import re
browser=webdriver.Chrome()  #创建webdriver对象
wait=WebDriverWait(browser, 10)
def search():
    try:
        browser.get('https://www.taobao.com')#打开请求的url
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR,'#q')))#等待搜索输入框加载完成
        input.send_keys("美食")#输入框中输入“美食”
        sumbit=wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button > button')))
        sumbit.click()
        total=wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.total')))
        return total.text
    except TimeoutException:
        return search

def main():
    total=search()
    total=int(re.compile('(\d+)').search(total).group(1))
    print (total)
if __name__=='__main__':
    main()

  输出结果：	
  100

共需加载页数

小结：

1.显性等待:WebDriverWait，配合该类的until()和until_not()方法进行的等待。它主要的意思就是：程序每隔xx秒看一眼，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException。
调用方法如下：
WebDriverWait(driver, 超时时长, 调用频率, 忽略异常).until(可执行方法, 超时时返回的信息)

until()方法参数：
method: 在等待期间，每隔一段时间调用这个传入的方法，直到返回值不是False
message: 如果超时，抛出TimeoutException，将message传入异常

until 中参数method ,用expected_conditions类中的方法：
presence_of_element_located 判断某个元素是否被加到了dom树里
element_to_be_clickable 判断某个元素中是否可见并且是enable的，这样的话才叫clickable
text_to_be_present_in_element 判断某个元素中的text是否包含了预期的字符串
presence_of_all_elements_located: 判断是否至少有1个元素存在于dom树中。举个例子，如果页面上有n个元素的class都是’column-md-3’，那么只要有1个元素存在，这个方法就返回True