当当网程序设计类图书信息爬取

本文介绍了如何使用Scrapy框架,通过XPath解析网页,爬取当当网上程序设计类图书的详细信息,并将数据存储到MongoDB数据库。项目包括dangdang_spider.py、pipelines.py、items.py、settings.py和main.py等文件。实测爬虫在几分钟内成功抓取了100页的数据。

当当网程序设计类图书信息爬取

思路分析

思路较为简单,就是循环遍历提取每一页的图书信息,再通过管道存入MongoDB数据库。
URL构造:

url = "http://category.dangdang.com/pg" + str(i) + "-cp01.54.06.00.00.00.html"

本次爬虫使用了scrapy框架。

项目目录

在这里插入图片描述

代码

dangdang_spider.py

# -*- coding: utf-8 -*-
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request


class DangdangSpiderSpider(scrapy.Spider):
    name = 'dangdang_spider'
    allowed_domains = ['dangdang.com']
    start_urls = ['http://category.dangdang.com/cp01.54.06.00.00.00.html']

    def parse(self, response):
        li_list = response.xpath('//ul[@class="bigimg"]//li')
        for li in li_list:
            title = li.xpath('./a/@title').get()
            link = li.xpath('./a/@href').get()
            detail = li.xpath('./p[@class="detail"]/text()').get()
            price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()').get()
            comment_num = li.xpath('./p[@class="search_star_line"]/a/text()'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值