selenium的使用-爬取天猫商品信息

from selenium import webdriver
from selenium.webdriver import ChromeOptions
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By

import time
import csv
from pyquery import PyQuery as pq

# 1.构造浏览器对象
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
option.add_experimental_option('useAutomationExtension', False)
option.add_argument('--headless')

browser = webdriver.Chrome(options=option)

wait = WebDriverWait(browser, 10)


# 2.初始化网页
browser.maximize_window()
keyword = input("请输入搜索的商品名称:")
url = "https://search.jd.com/Search?keyword=" + keyword
browser.get(url)


filename = keyword + '.csv'
# # 3.循环翻100页,并且解析每一页
for page_num in range(1, 101):
    print("正在获取第" + str(page_num) + "页")
    # 3.1拉到最底下,加载网页
    browser.execute_script('window.scrollTo(0,document.body.scrollHeight)')
    time.sleep(3)

    # 3.2获取商品信息
    doc = pq(browser.page_source)
    lis = doc.find('div#J_goodsList li').items()
    for li in lis:
        goods_name = li.find('.p-name').text().replace('\n', '')
        goods_price = li.find('.p-price').text()
        goods_shop = li.find('.curr-shop.hd-shopname').text()
        goods_item = [goods_name, goods_price, goods_shop]
        with open(filename, 'a', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(goods_item)

    # 3.3翻到下一页
    input_page = wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="J_bottomPage"]/span[2]/input')))
    submit = wait.until(EC.element_to_be_clickable((By.XPATH, '//*[@id="J_bottomPage"]/span[2]/a')))

    input_page.clear()
    input_page.send_keys(page_num)
    submit.click()

### 游客模式下使用 Python Scrapy 和 Selenium 爬取天猫商品信息 在游客模式下爬取天猫商品信息可以通过结合 Scrapy 和 Selenium 实现。以下是具体的技术细节: #### 使用 Scrapy 定义 Item 结构 为了存储爬取到的数据,可以在 `items.py` 文件中定义一个自定义的 Item 类[^1]: ```python import scrapy class TaobaoItem(scrapy.Item): product_name = scrapy.Field() price = scrapy.Field() shop_name = scrapy.Field() sales_volume = scrapy.Field() link = scrapy.Field() ``` #### 编写 Spider 脚本 通过编写 Spider 来解析网页内容并提取所需的信息。以下是一个简单的示例: ```python from scrapy import Spider from TestspiderSpider.items import TaobaoItem from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class TaobaoSpider(Spider): name = 'taobao_spider' allowed_domains = ['tmall.com'] start_urls = ['https://list.tmall.com/search_product.htm?q=python'] def __init__(self, *args, **kwargs): super(TaobaoSpider, self).__init__(*args, **kwargs) # 初始化 Selenium WebDriver (需提前安装驱动程序) from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument('--headless') # 启用无头模式 self.driver = webdriver.Chrome(options=options) def parse(self, response): self.driver.get(response.url) try: wait = WebDriverWait(self.driver, 10) products = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, "product-item"))) for product in products: item = TaobaoItem() item['product_name'] = product.find_element(By.CLASS_NAME, "product-title").text.strip() item['price'] = product.find_element(By.CLASS_NAME, "product-price").text.strip() item['shop_name'] = product.find_element(By.CLASS_NAME, "product-shop-name").text.strip() item['sales_volume'] = product.find_element(By.CLASS_NAME, "product-sales-volume").text.strip() item['link'] = product.find_element(By.TAG_NAME, "a").get_attribute('href') yield item finally: self.driver.quit() ``` #### 解决重定向问题 如果遇到 HTTP 301 或其他类型的跳转问题,可以设置 Scrapy 的请求参数以处理这些情况[^2]。例如,在 `settings.py` 中启用如下配置项: ```python REDIRECT_ENABLED = True HTTPERROR_ALLOWED_CODES = [301, 302] ``` #### 动态加载支持 Selenium 可用于模拟用户的交互行为,从而获取动态加载的内容。这使得即使是在游客模式下也可以成功抓取需要 JavaScript 执行才能显示的部分数据[^1]。 --- ### 注意事项 - **反爬机制**:天猫可能具有一定的反爬措施,因此建议适当降低请求频率,并添加随机 User-Agent。 - **法律合规性**:确保遵守目标网站的服务条款以及当地法律法规,未经授权的大规模数据采集可能会引发法律责任。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值