目录
1.环境搭建 scrapy
pip install scrapy
scrapy常用的命令
(1)startproject: 创建scrapy项目
(2)genspider:创建spiders小爬虫文件
2.创建scrapy项目
在你想要创建项目的目录下,shift+ 右键 在此处打开命令行:
scrapy startproject scrapyproject
创建好之后,在该目录下出现了一个scrapyProject的文件夹
3.在scrapy项目下面创建新的爬虫spiders
scrapy genspider 文件名 要爬的域名
进入到刚刚创建的文件里面,在这个文件下面创建一个新的小爬虫
4.在Pycharm中打开项目
(1)整体scrapy框架
(2)新建的那个小爬虫
5.爬取百度简单代码
6.运行项目,没有爬取到消息,修改settings
运行项目:
scrapy crawl 爬虫文件名
但是现在什么都爬不到
修改settings的设置文件:
把ROBOTSTXT_OBEY的值改为False
那么,robots.txt是什么呢?要遵循什么规则呢?
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
我们可以直接在地址栏上输入https://www.baidu.com/robots.txt 查看该协议的内容
7再次运行
scrapy crawl s_baidu
很明显爬取到数据了,并且在项目中出现了baidu.html文件
看到百度的首页是不是心情很舒畅,我们的简单实用scrapy框架就已经成功结束了
目前为止scrapy框架已经算是入门了