爬取淘宝美食
操作流程:1.搜索关键字,利用selenium驱动浏览器搜索关键字,得到查询后的商品列表
2.得到商品页码数,模拟翻页,得到后续页面的商品列表
3.分析提取商品内容,利用pyquery分析源码,解析得到商品列表
4.存储至mongodb
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import re
from pyquery import PyQuery as pq
from config import *
import pymongo
client=pymongo.MongoClient(MONGO_URL)
db=client[MONGO_DB]
chrome_diver="E:\Googedownload\chromedriver_win32\chromedriver.exe"
browser=webdriver.Chrome(executable_path=chrome_diver)
wait=WebDriverWait(browser,10)
def search():#获取首页数据
try:
browser.get('https://www.taobao.com')
input=wait.until(
EC.presence_of_element_located((By.CSS_SELECTOR,'#q'))
)
submit=wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR,'#J_TSearchForm > div.search-button &

本文介绍了如何使用Selenium驱动浏览器进行关键词搜索,爬取搜狗微信文章的过程。首先搜索关键字,然后模拟翻页获取更多文章,接着通过PyQuery解析源码提取文章信息,最后将数据存储到MongoDB中。
最低0.47元/天 解锁文章
471

被折叠的 条评论
为什么被折叠?



