思路分析
思路较为简单,就是循环遍历提取每一页的图书信息,再通过管道存入MongoDB数据库。
URL构造:
url = "http://category.dangdang.com/pg" + str(i) + "-cp01.54.06.00.00.00.html"
本次爬虫使用了scrapy框架。
项目目录

代码
dangdang_spider.py
# -*- coding: utf-8 -*-
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request
class DangdangSpiderSpider(scrapy.Spider):
name = 'dangdang_spider'
allowed_domains = ['dangdang.com']
start_urls = ['http://category.dangdang.com/cp01.54.06.00.00.00.html']
def parse(self, response):
li_list = response.xpath('//ul[@class="bigimg"]//li')
for li in li_list:
title = li.xpath('./a/@title').get()
link = li.xpath('./a/@href').get()
detail = li.xpath('./p[@class="detail"]/text()').get()
price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()').get()
comment_num = li.xpath('./p[@class="search_star_line"]/a/text()'

本文介绍了如何使用Scrapy框架,通过XPath解析网页,爬取当当网上程序设计类图书的详细信息,并将数据存储到MongoDB数据库。项目包括dangdang_spider.py、pipelines.py、items.py、settings.py和main.py等文件。实测爬虫在几分钟内成功抓取了100页的数据。
最低0.47元/天 解锁文章
2960

被折叠的 条评论
为什么被折叠?



