利用Scrapy架构爬取网页数据步骤

最新推荐文章于 2025-10-13 09:07:37 发布

原创最新推荐文章于 2025-10-13 09:07:37 发布 · 8.2k 阅读

40 ·

CC 4.0 BY-SA版权

python 专栏收录该内容

12 篇文章

订阅专栏

本文详细介绍了如何使用Scrapy框架构建爬虫项目，包括新建项目、定义爬取目标（编写items.py）以及制作爬虫（spiders/xxspider.py）。首先，通过scrapy startproject命令创建项目，接着在items.py中定义数据模型，最后在爬虫文件中设置允许的域名和起始URL，爬取网页源代码。

Scrapy架构爬取网页步骤

一、新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目

1、在pycharm开发工具终端输入命令：

scrapy startproject mySpider

2、执行命令之后在保存路径下会出现项目：

3、在pycharm中新建项目：

二、明确目标（编写items.py）：明确你想要抓取的目标

1、构建 item 模型

import scrapy

class ItcastItem(scrapy.Item):
   name = scrapy.Field()
   title = scrapy.Field()
   info = scrapy.Field()

复制以上代码替换掉项目中的items.py里的内容。

3、制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页

1. 爬数据

在当前目录下输入命令，将在test002/spiders目录下创建一个名为itcast的爬虫。

scrapy genspider itcast "itcast.cn"

2、指定爬取域的范围，在itcast.py中添加以下代码：

import scrapy

class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ("edu.cn")
    start_urls = ("http://www.kluniv.edu.cn/",)

    def parse(self, response):
        filename = "teacher.html"
        open(filename, 'wb').write(response.body)

其中需要修改的方法有：

allow_domains = () 是搜索的域名范围，也就是爬虫的约束区域。

start_urls = () 爬取的URL元祖/列表。即所要爬取的网页网址。

3、执行以下命令爬取网页全部源代码信息。