目录
1.环境搭建 scrapy
pip install scrapy
scrapy常用的命令
(1)startproject: 创建scrapy项目
(2)genspider:创建spiders小爬虫文件

2.创建scrapy项目
在你想要创建项目的目录下,shift+ 右键 在此处打开命令行:
scrapy startproject scrapyproject

创建好之后,在该目录下出现了一个scrapyProject的文件夹
3.在scrapy项目下面创建新的爬虫spiders
scrapy genspider 文件名 要爬的域名
进入到刚刚创建的文件里面,在这个文件下面创建一个新的小爬虫

4.在Pycharm中打开项目
(1)整体scrapy框架

(2)新建的那个小爬虫

5.爬取百度简单代码

6.运行项目,没有爬取到消息,修改settings
运行项目:
scrapy crawl 爬虫文件名
但是现在什么都爬不到

修改settings的设置文件:
把ROBOTSTXT_OBEY的值改为False

那么,robots.txt是什么呢?要遵循什么规则呢?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
我们可以直接在地址栏上输入https://www.baidu.com/robots.txt 查看该协议的内容

7再次运行
scrapy crawl s_baidu

很明显爬取到数据了,并且在项目中出现了baidu.html文件

看到百度的首页是不是心情很舒畅,我们的简单实用scrapy框架就已经成功结束了

目前为止scrapy框架已经算是入门了

本文介绍了如何使用Scrapy搭建环境,创建项目,生成爬虫文件,然后在Pycharm中打开并编写爬取百度的简单代码。在遇到未爬取到数据的问题时,通过修改settings中的ROBOTSTXT_OBEY设置,成功获取到数据并生成了baidu.html文件,完成了Scrapy的初步实战。
585

被折叠的 条评论
为什么被折叠?



