Scrapy基础第二节：Scrapy版的Hello World

最新推荐文章于 2024-09-17 13:30:28 发布

原创最新推荐文章于 2024-09-17 13:30:28 发布 · 2k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#scrapy #python #爬虫

Scrapy 专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍使用Scrapy框架搭建爬虫项目的全过程，包括环境配置、项目创建、爬虫类编写及数据流转流程。通过访问博客网站实例，展示Scrapy各组件的功能与协作方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第二节：Scrapy版的Hello World

前置知识：

掌握Python的基础知识
对爬虫基础有一定了解

说明： 运行环境

Win10，Python3 64位

# -*- coding: utf-8 -*-
import scrapy

class MyblogspiderSpider(scrapy.Spider):
    name = 'MyblogSpider'
    allowed_domains = ['blog.youkuaiyun.com']
    start_urls = ['https://blog.youkuaiyun.com/mist99/']

    def parse(self, response):
          print("*************** Hello Scrapy ********************")

然后我们可以在控制台直接运行这个爬虫：

scrapy crawl MyblogSpider

然后就能看到抓取网页成功的200标识，然后是parser里面我们刚才打印的日志，具体解析页面就以后再说。
在这里插入图片描述

这样我们的Hello World就执行成功了，虽然看起来有点莫名，这当然是因为scrapy中各个组件基类已经实现了。

3 Scrapy组件运行过程

从项目目录我们可以看到，工程中有item、spider、middleware、pipline、settings等一系列文件，那么在我们hello world项目运行中，它们是否都参与了项目过程呢，下面我们再增加一些日志来看
1）在item里面打开注释定义

class HelloscrapyItem(scrapy.Item):
    # define the fields for your item here like:
    print("【步骤】Item 定义结构")
    name = scrapy.Field()

2）在MyblogSpider中重载一下页面请求的函数，再添加一些注释

# -*- coding: utf-8 -*-
import scrapy
from scrapy import Request
from HelloScrapy.items import HelloscrapyItem

class MyblogspiderSpider(scrapy.Spider):
    name = 'MyblogSpider'
    allowed_domains = ['blog.youkuaiyun.com']
    start_urls = ['https://blog.youkuaiyun.com/mist99/']

    # 页面请求
    def start_requests(self):
        print("【步骤】SinaSpider::start_requests页面请求 ")
        yield Request(self.start_urls[0])

    def parse(self, response):
        print("*************** Hello Scrapy ********************")
        print("【步骤】SinaSpider::parse分析页面 ")

        item = HelloscrapyItem()
        item["name"] = "阿丹的彩蛋"

        yield item

3）在 middlewares.py 中添加日志

    def process_response(self, request, response, spider):
        # Called with the response returned from the downloader.
        print("【步骤】HelloscrapyDownloaderMiddleware中间件")
        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

4）在 pipelines 中添加日志

from HelloScrapy.items import HelloscrapyItem

class HelloscrapyPipeline(object):
    def process_item(self, item, spider):
        if isinstance(item, HelloscrapyItem):  # 先判断item
            print("【步骤】pipelines处理数据")
            return item

5）最后打开settings配置文件中的注释

DOWNLOADER_MIDDLEWARES = {
    'HelloScrapy.middlewares.HelloscrapyDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
    'HelloScrapy.pipelines.HelloscrapyPipeline': 300,
}

6）现在我们再运行一次爬虫