selenium 和 scrapy 配合爬取京东
spider
import scrapy
from JD.items import JdItem
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
class JdSpider(scrapy.Spider):
name = 'Jd'
# 爬虫域
allowed_domains = ['jd.com']
# 起始链接
start_urls = ['https://list.jd.com/list.html?cat=670,671,672']
def __init__(self):
"""
在爬虫内初始化 selenium
减少 selenium 的开关次数
"""
super().__init__()
# 无界面模式
# self.firefox = Options()
# self.firefox.add_argument('--headless')
# self.browser = webdriver.Firefox(firefox_options=self.firefox)
# 有界面
self.browser = webdriver.Firefox()
# 超时设置
self.browser.set_page_load_timeout(15)