当当网程序设计类图书信息爬取

最新推荐文章于 2023-10-19 00:18:29 发布

原创

最新推荐文章于 2023-10-19 00:18:29 发布 · 752 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#xpath #网络爬虫

本文介绍了如何使用Scrapy框架，通过XPath解析网页，爬取当当网上程序设计类图书的详细信息，并将数据存储到MongoDB数据库。项目包括dangdang_spider.py、pipelines.py、items.py、settings.py和main.py等文件。实测爬虫在几分钟内成功抓取了100页的数据。

当当网程序设计类图书信息爬取

思路分析
项目目录
代码
结果展示
总结分析

思路分析

思路较为简单，就是循环遍历提取每一页的图书信息，再通过管道存入MongoDB数据库。
URL构造：

url = "http://category.dangdang.com/pg" + str(i) + "-cp01.54.06.00.00.00.html"

本次爬虫使用了scrapy框架。

项目目录

在这里插入图片描述

代码

dangdang_spider.py

# -*- coding: utf-8 -*-
import scrapy
from dangdang.items import DangdangItem
from scrapy.http import Request


class DangdangSpiderSpider(scrapy.Spider):
    name = 'dangdang_spider'
    allowed_domains = ['dangdang.com']
    start_urls = ['http://category.dangdang.com/cp01.54.06.00.00.00.html']

    def parse(self, response):
        li_list = response.xpath('//ul[@class="bigimg"]//li')
        for li in li_list:
            title = li.xpath('./a/@title').get()
            link = li.xpath('./a/@href').get()
            detail = li.xpath('./p[@class="detail"]/text()').get()
            price = li.xpath('./p[@class="price"]/span[@class="search_now_price"]/text()').get()
            comment_num = li.xpath('./p[@class="search_star_line"]/a/text()'