爬虫教程

最新推荐文章于 2025-05-07 15:25:27 发布

无敌..

最新推荐文章于 2025-05-07 15:25:27 发布

阅读量400

点赞数

分类专栏：爬虫

本文链接：https://blog.youkuaiyun.com/qq_42350970/article/details/88595891

版权

爬虫专栏收录该内容

9 篇文章

订阅专栏

本文介绍了使用Scrapy框架创建和运行爬虫的步骤。首先，通过`scrapy startproject`新建项目，然后使用`scrapy genspider`创建爬虫文件，并指定目标网站。接着运行爬虫文件`scrapy crawl`。在Pipeline.py中处理数据，如清洗、去重和存储。爬虫的`start_requests`方法用于生成初始请求，`parse`方法解析响应并提取Item，而Pipeline的`process_item`方法处理这些Item。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.新建项目：scrapy startproject xxx项目名，例如：

scrapy startproject new_project

2、创建爬虫文件

name:为文件的名字，

在spiders文件下运行：scrapy genspider -t crawl name 'xxxx.com'

3、运行爬虫文件

scrapy crawl name

2、Pipeline.py 文件

对应 pipelines 文件
爬虫提取出数据存入 item 后，item 中保存的数据需要进一步处理，比如清洗，去重，存储等
Pipeline 需要处理 process_item 函数
process_item
- spider 提取出来的 item 作为参数传入，同时传入的还有 spider
- 此方法必须实现
- 必须返回一个 Item 对象，被丢弃的 item 不会被之后的 pipeline
_ init _：构造函数
- 进行一些必要的参数初始化
open_spider(spider)：
- spider 对象对开启的时候调用
close_spider(spider)：
- 当 spider 对象被关闭的时候调用
Spider 目录
- 对应的是文件夹 spider 下的文件
- _ init _：初始化爬虫名称，start _urls 列表
- start_requests：生成 Requests 对象交给 Scrapy 下载并返回 response
- parse：根据返回的 response 解析出相应的 item，item 自动进入 pipeline：如果需要，解析 url，url自动交给 requests 模块，一直循环下去
- start_requests：此方法尽能被调用一次，读取 start _urls 内容并启动循环过程
- name：设置爬虫名称
- start_urls：设置开始第一批爬取的 url
- allow_domains：spider 允许去爬的域名列表
- start_request(self)：只被调用一次
- parse：检测编码
- log：日志记录