一、总体思路
1、创建scrapy项目
2、分析当当网特产网址
3、分析出所取部分xpath公式
4、编写item
5、编写爬虫
6、编写pipline文件将取到的数据存入到mysql中
二、具体实现
1、创建scrapy项目
scrapy startproject dangdang
2、分析当当网特产网址
第一页 http://category.dangdang.com/pg1-cid4003844.html
第二页http://category.dangdang.com/pg2-cid4003844.html
第三页http://category.dangdang.com/pg3-cid4003844.html
对比发现数字不同页数不同
3、分析出所取部分xpath公式
item["comment"] = response.xpath("//a[@name='itemlist-review']/text()").extract()
item["link"] = response.xpath("//a[@name='itemlist-title']/@href").extract()
item["title"] = response.xpath("//a[@name='itemlist-title']/text()").extract()
item['price'] = response.xpath("//span[@class='price_n']/text()").extract()
4项目代码
一项目结构
(1)item
-
定义四个字段分别存储title,link,price.comment
import scrapy
class DangdangItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title=scrapy.Field()
link=scrapy.Field()
comment=scrapy.Field()
price=scrapy.Field()
dd.py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request
from dangdang.items import DangdangItem
class DdSpider(scrapy.Spider):
name ='dd'
allowed_domains = ['dangdang.com']
# 开始的url
start_urls = ['http://category.dangdan