Scrapy框架中CrawSpider的使用

原创已于 2022-02-23 17:27:23 修改 · 755 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫

于 2022-02-23 17:24:27 首次发布

本文介绍了如何使用Scrapy框架创建一个爬虫，抓取Dushu.com网站上的书籍详情。首先通过`scrapystartproject`创建项目，接着利用`scrapygenspider`生成名为`book`的爬虫，针对`dushu.com`域名。在爬虫文件中，定义`BookSpider`类，设置起始URL和规则，用LinkExtractor匹配特定书籍链接，并回调`parse_item`方法解析书籍信息，包括书名和图片源。该爬虫遵循正则表达式，持续跟踪符合条件的链接，提取并输出书籍关键信息。

1.创建项目

scrapy startproject 项目名

2.创建爬虫(爬虫基于CrawSpider类)

scrapy genspider -t craw 爬虫名域名

3.爬虫文件中

# CrawSpider的使用
class BookSpider(CrawlSpider):
    name = 'book'
    allowed_domains = ['dushu.com']
    # ----------注意--------
    # 开始链接必须符合 正则提取的链接
    start_urls = ['https://www.dushu.com/book/1158_1.html']

    rules = (
        Rule(LinkExtractor(
            # 正则条件，寻找符合条件的链接
            allow=r'/book/1158_\d+\.html'),
            callback='parse_item',
            # 默认为True，表示持续寻找符合正则的链接。
            follow=True),
    )

    def parse_item(self, response):
        li_list = response.xpath('//div[@class="bookslist"]/ul/li')
        for li in li_list:
            item = DushuwangItem()
            item['name'] = li.xpath('./div/h3/a/text()').extract_first()
            item['src'] = li.xpath('./div/div[1]/a/img/@data-original').extract_first()
            yield item