scrapy爬虫的使用步骤

最新推荐文章于 2022-10-27 08:15:00 发布

原创最新推荐文章于 2022-10-27 08:15:00 发布 · 369 阅读

0 ·

CC 4.0 BY-SA版权

文字专栏收录该内容

2 篇文章

订阅专栏

本文详细介绍了Scrapy爬虫项目的目录结构和实现步骤，包括项目创建、配置、爬虫编写、数据结构化及持久化操作。涵盖spiders、items、middlewares、pipelines等核心模块的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

scrapy目录

spiders：源文件夹，所有的爬虫类都写在这个目录下
items.py：结构化数据的实体类的模块
middlewares.py: 所有中间层类的模块
pipelines.py: 结构化后的数据，持久化操作的模块
settings.py: 项目的配置文件

scrapy项目的实现步骤：

1、在 cmd 窗口中执行： scrapy startproject 项目名
2、把第一步步生成的项目加载到 pycharm
3、修改settings中的
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = 5个常用的headers
4、在 spiders 源文件夹中编写一个 spider 模块，
在模块中建立一个爬虫类，
编写对应的启动方式
编写对应的回调函数！
直到得到具体的业务数据
5、在 items.py 中编写 item 实体类，并且将第4步得到的数据结构化
通过 yield item 将 item 传递给 pipeline
6、需要在 settings 启用 pipeline
7、在第6步启用的 pipeline 中，编写对应的持久化代码
可以print输出，也可以写到文件，也可以写到数据库
8、持久化成功，项目运行