scrapy目录结构

最新推荐文章于 2024-05-09 16:10:51 发布

原创最新推荐文章于 2024-05-09 16:10:51 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

scrapy框架专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何使用Scrapy框架新建项目和爬虫，并详细讲解了Scrapy的默认项目目录结构。通过`scrapy startproject`命令创建项目，然后使用`scrapy genspider`生成爬虫。重点讨论了`items.py`文件，该文件用于定义爬取数据的结构和字段名。

新建项目

scrapy startproject one_scrapy
scrapy genspider -l #查看爬虫模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫

项目目录结构

这里写图片描述

编辑爬虫文件

items.py

items.py 中定义了储存数据的字段名，在编辑此文件前需先分析要提取那些信息，定义好名称即可。

JobSpider.py

此文件是整个爬虫的发起点，启动爬虫时会从此文件中的start_urls里的url地址开始爬，中间经过了爬虫》引擎》调度器》下载器》引擎》爬虫，此时会返回一个response即为start_urls对应的网页文件，在此爬虫文件里还有一个parse函数，带有response这个参数，专门用来解析返回文件的处理，解析后的结果经提取处理后可存放到items.py定义的字段里（需要引入items.py中相应的类实例），如果要想将数据转存到数据库或其他格式，只需将item放出（yield item），它会被pipelines.py自动捕获进行处理。
pipelines.py

此文件是用来处理提取的数据的，可以将数据转存为其他格式或数据库中,如果要启用此文件需要先在settings.py中指明pipelines.py中的类，并且如果有多个类的话还要定义优先级，就是后面的数字，越小优先级越高，
在每个pipeline类中必有一个process_item的函数，此函数是数据处理的具体流程。
settings.py
详细信息科参考此博客

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。