项目需求
- 收集京东平台小牛电动车的用户评价,不含其它周边类似配件的用户评价。
步骤
- 获取小牛电动车各个型号的产品列表及对应的产品页链接
- 按照各个型号给出的产品页链接,爬取每个产品的商品评价
selenium爬取
# 京东评论 爬取
from selenium import webdriver
import time
import numpy as np
import pandas as pd
from selenium.common.exceptions import NoSuchElementException
chromeOptions = webdriver.ChromeOptions()
chromeOptions.add_argument('--proxy-server=127.0.0.1:8118')
# 京东的反爬虫机制是对疑似爬虫用户禁封IP的形式,所以访问时注意设置代理IP
# 如果所需的爬虫较多,需要设置休息时间
browser = webdriver.Chrome(options=chromeOptions)
#browser = webdriver.Chrome()
browser.get('https://mall.jd.com/view_search-625118.html')
browser.maximize_window()
# 找到五个产品分类
category = browser.find_elements_by_partial_link_text('小牛电动')[:5]
category_name = [cate.text for cate in category]
category_links = [cate.get_attribute('href') for cate in category]
time.sleep(np.random.randint(0,5)) # 京东的反爬虫机制是对疑似