简单创建一个scrapy项目,并创建爬百度的spider文件

本文介绍了如何使用Scrapy搭建环境,创建项目,生成爬虫文件,然后在Pycharm中打开并编写爬取百度的简单代码。在遇到未爬取到数据的问题时,通过修改settings中的ROBOTSTXT_OBEY设置,成功获取到数据并生成了baidu.html文件,完成了Scrapy的初步实战。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1.环境搭建 scrapy

2.创建scrapy项目

3.在scrapy项目下面创建新的爬虫spiders

4.在Pycharm中打开项目

5.爬取百度简单代码

6.运行项目,没有爬取到消息,修改settings

7再次运行


1.环境搭建 scrapy

pip install scrapy

scrapy常用的命令

(1)startproject: 创建scrapy项目

(2)genspider:创建spiders小爬虫文件

2.创建scrapy项目

在你想要创建项目的目录下,shift+ 右键  在此处打开命令行:

scrapy startproject scrapyproject

创建好之后,在该目录下出现了一个scrapyProject的文件夹

3.在scrapy项目下面创建新的爬虫spiders

scrapy genspider 文件名 要爬的域名

进入到刚刚创建的文件里面,在这个文件下面创建一个新的小爬虫

4.在Pycharm中打开项目

(1)整体scrapy框架

(2)新建的那个小爬虫

5.爬取百度简单代码

6.运行项目,没有爬取到消息,修改settings

运行项目:

scrapy crawl 爬虫文件名

但是现在什么都爬不到

修改settings的设置文件:

把ROBOTSTXT_OBEY的值改为False

那么,robots.txt是什么呢?要遵循什么规则呢?

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

我们可以直接在地址栏上输入https://www.baidu.com/robots.txt   查看该协议的内容

7再次运行

scrapy crawl s_baidu

很明显爬取到数据了,并且在项目中出现了baidu.html文件

看到百度的首页是不是心情很舒畅,我们的简单实用scrapy框架就已经成功结束了

目前为止scrapy框架已经算是入门了

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值