一.如何创建Scrapy爬虫项目
(1) Win+R 打开cmd,假如我要在F盘的Scrapy文件中创建项目,进入相应的地方,如下。(cd,是进入下一级,cd…是返回上一级,cd\是返回盘符)

(2)使用指令scrapy startproject dangdang创建名为dangdang的项目。
dangdang这个项目下包括了同项目名dangdang的核心目录和项目的配置文件scrapy.cfg,如下。
(3) 点击核心目录,又发现了有很多文件,如下。

spiders文件夹放置我们的爬虫,可以使用scrapy genspider -t basic 文件名 域名创建爬虫文件,其中basic可以换,因为它是一个模版,还可换成:
Available templates: #模板说明
basic 创建基础爬虫文件
crawl 创建自动爬虫文件
csvfeed 创建爬取csv数据爬虫文件
xmlfeed 创建爬取xml数据爬虫文件
哪个里面写什么,这和Scrapy架构有关系
Spider要做两件事:(1)定义爬取网站的动作 (2)分析爬取下来的网页
_ init_.py:爬虫项目的初始化文件,用来对项目

本文介绍了如何使用Scrapy创建项目,详细讲解了从创建dangdang项目到运行爬虫文件的步骤。接着,文章进入了实战环节,展示了如何爬取当当网连衣裙第一页的商品名称、链接和评论数,并将数据存入数据库。
最低0.47元/天 解锁文章
1645

被折叠的 条评论
为什么被折叠?



