根据关键词抓取淘宝信息

最新推荐文章于 2024-07-25 19:59:32 发布

没有葡萄酸

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： selenium phantomjs scrapy 根据关键词抓取淘宝信息

本文链接：https://blog.youkuaiyun.com/weixin_39378885/article/details/80040194

该博客介绍了如何利用selenium、PhantomJS库进行网页交互，抓取淘宝商品信息，并通过定义的四个函数（search_keyword、get_information、next_page、save_to_mongodb）完成数据获取和存储到MongoDB的过程。同时，提供了相关文档链接和配置文件说明。

根据关键词抓取淘宝信息

1，selenium MongoDB PhantomJS .etc
2，一共定义了四个函数：
各自功能如下：

search_keyword：搜索关键字并返回总页数
get_infomation：获取单条信息
next_page：实现翻页效果
save_to_mongodb：保存到MongoDB

四个函数间，有一定的调用关系。具体参考代码：
附：

selenium文档中文翻译版
selenium文档英文版
PhantomJS文档

#taobao.py
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
from selenium import webdriver
import re
from bs4 import BeautifulSoup as bs
from config import *
<