新建项目
scrapy startproject one_scrapy
scrapy genspider -l #查看爬虫模板
scrapy genspider -t basic one_spider www.jobbole.com#以basic为模板新建job爬虫
项目目录结构
编辑爬虫文件
items.py
items.py 中定义了储存数据的字段名,在编辑此文件前需先分析要提取那些信息,定义好名称即可。
JobSpider.py
此文件是整个爬虫的发起点,启动爬虫时会从此文件中的start_urls里的url地址开始爬,中间经过了 爬虫》引擎》调度器》下载器》引擎》爬虫,此时会返回一个response即为start_urls对应的网页文件,在此爬虫文件里还有一个parse函数,带有response这个参数,专门用来解析返回文件的处理,解析后的结果经提取处理后可存放到items.py定义的字段里(需要引入items.py中相应的类实例),如果要想将数据转存到数据库或其他格式,只需将item放出 (yield item),它会被pipelines.py自动捕获进行处理。
pipelines.py
此文件是用来处理提取的数据的,可以将数据转存为其他格式或数据库中,如果要启用此文件需要先在settings.py中指明pipelines.py中的类,并且如果有多个类的话还要定义优先级,就是后面的数字,越小优先级越高,
在每个pipeline类中必有一个process_item的函数,此函数是数据处理的具体流程。settings.py
详细信息科参考此博客
本文介绍了如何使用Scrapy框架新建项目和爬虫,并详细讲解了Scrapy的默认项目目录结构。通过`scrapy startproject`命令创建项目,然后使用`scrapy genspider`生成爬虫。重点讨论了`items.py`文件,该文件用于定义爬取数据的结构和字段名。
3975

被折叠的 条评论
为什么被折叠?



