利用selenium爬取淘宝

使用selenium爬取淘宝美食数据

最新推荐文章于 2025-10-13 16:12:56 发布

原创

最新推荐文章于 2025-10-13 16:12:56 发布 · 443 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#爬取淘宝

该博客详细介绍了如何利用selenium爬取淘宝网站上的美食商品信息。首先，通过selenium驱动浏览器进行关键字搜索，获取商品列表。接着，解析并获取页面总页数，实现模拟翻页以抓取更多商品。然后，运用pyquery解析源码，提取所需商品内容。最后，将抓取到的数据存储到mongodb数据库中。

爬取淘宝美食

操作流程:1.搜索关键字，利用selenium驱动浏览器搜索关键字，得到查询后的商品列表
2.得到商品页码数，模拟翻页，得到后续页面的商品列表
3.分析提取商品内容，利用pyquery分析源码，解析得到商品列表
4.存储至mongodb

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
from pyquery import PyQuery as pq
from config import *
import pymongo
client=pymongo.MongoClient(MONGO_URL)
db=client[MONGO_DB]

chrome_diver="E:\Googedownload\chromedriver_win32\chromedriver.exe"
browser=webdriver.Chrome(executable_path=chrome_diver)
wait=WebDriverWait(browser,10)

def search():#获取首页数据
    try:
        browser.get('https://www.taobao.com')
        input=wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR,'#q'))
        )
        submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button &