Scrapy 爬取京东所有图书信息

最新推荐文章于 2021-12-30 18:56:49 发布

Sound_of_ Silence

最新推荐文章于 2021-12-30 18:56:49 发布

阅读量711

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python 爬虫 request

本文链接：https://blog.youkuaiyun.com/weixin_44521703/article/details/99892386

本文介绍如何利用Scrapy框架爬取京东网站上的所有图书信息，并将爬取结果存储到Redis数据库中，以实现数据的高效管理和后续分析。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

先记录代码吧，回头再写文字：

# -*- coding: utf-8 -*-
import scrapy
import json
import pprint
from copy import deepcopy


class JdSpider(scrapy.Spider):
    name = 'jd'
    allowed_domains = ['jd.com', 'p.3.cn']
    # 这是由于后期使用有使用json解析，使用的域名为p.3.cn
    start_urls = ['https://book.jd.com/booksort.html']

    def parse(self, response):
        dt_list = response.xpath('//div[@class="mc"]/dl/dt')  # 获取大分类列表
        for dt in dt_list:
            item = dict() # 创建字典，存储相关信息
            item['b_cate'] = dt.xpath('./a/text()').extract_first() # 大分类标题
            em_list = dt.xpath('./following-sibling::dd[1]/em') # 获取小分类列表位置
            for em in em_list:  # 小分类列表
                item["s_href"] = em.xpath('./a/@href').extract_first()
                item['s_cate'] = em.x