简单创建一个scrapy项目,并创建爬百度的spider文件

最新推荐文章于 2025-04-30 16:15:23 发布

原创最新推荐文章于 2025-04-30 16:15:23 发布 · 3.5k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#scrapy爬百度

高级爬虫项目同时被 2 个专栏收录

13 篇文章

订阅专栏

8 篇文章

订阅专栏

本文介绍了如何使用Scrapy搭建环境，创建项目，生成爬虫文件，然后在Pycharm中打开并编写爬取百度的简单代码。在遇到未爬取到数据的问题时，通过修改settings中的ROBOTSTXT_OBEY设置，成功获取到数据并生成了baidu.html文件，完成了Scrapy的初步实战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

1.环境搭建 scrapy

2.创建scrapy项目

3.在scrapy项目下面创建新的爬虫spiders

4.在Pycharm中打开项目

5.爬取百度简单代码

6.运行项目，没有爬取到消息，修改settings

1.环境搭建 scrapy

pip install scrapy

scrapy常用的命令

（1）startproject: 创建scrapy项目

（2）genspider:创建spiders小爬虫文件

2.创建scrapy项目

在你想要创建项目的目录下，shift+ 右键在此处打开命令行:

scrapy startproject scrapyproject

创建好之后，在该目录下出现了一个scrapyProject的文件夹

3.在scrapy项目下面创建新的爬虫spiders

scrapy genspider 文件名 要爬的域名

进入到刚刚创建的文件里面，在这个文件下面创建一个新的小爬虫

4.在Pycharm中打开项目

（1）整体scrapy框架

（2）新建的那个小爬虫

5.爬取百度简单代码

6.运行项目，没有爬取到消息，修改settings

运行项目：

scrapy crawl 爬虫文件名

但是现在什么都爬不到

修改settings的设置文件：

把ROBOTSTXT_OBEY的值改为False

那么，robots.txt是什么呢？要遵循什么规则呢？

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

我们可以直接在地址栏上输入https://www.baidu.com/robots.txt 查看该协议的内容

7再次运行

scrapy crawl s_baidu

很明显爬取到数据了，并且在项目中出现了baidu.html文件

看到百度的首页是不是心情很舒畅，我们的简单实用scrapy框架就已经成功结束了

目前为止scrapy框架已经算是入门了

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。