Python爬虫基础：安装Scrapy爬虫框架和创建Scrapy爬虫项目

最新推荐文章于 2023-03-21 16:31:48 发布

原创最新推荐文章于 2023-03-21 16:31:48 发布 · 871 阅读

·

2

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

Python 专栏收录该内容

25 篇文章

订阅专栏

本文详细介绍如何使用清华大学镜像源安装Scrapy爬虫所需组件，包括pywin32、Twisted及Scrapy本身，同时指导如何创建并运行Scrapy项目，实现网页数据抓取。

首先为了避免国外镜像不稳定，我们使用了清华大学的python库镜像：https://pypi.tuna.tsinghua.edu.cn/simple

1、安装scrapy

1.1、安装pywin32（解决python调用windows系统库的问题）

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32

1.2、安装Twisted网络数据处理的集成包，scrapy会调用

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Twisted

1.3、安装scrapy模块

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

1.4、查看scrapy的版本号

scrapy version

2、创建scrapy爬虫项目

2.1、执行如下命令创建一个爬虫项目

scrapy startproject newspiderproject

2.2、进入项目目录使用scrapy genspider命令创建爬虫主文件，指定爬取的url

cd newspiderproject

执行 scrapy genspider jobspidernow www.baidu.com

生成爬虫主文件

2.3、使用scrapy crawl 启动爬虫，查看是否能够访问url，如果200说明访问成功，爬虫框架搭建成功

scrapy crawl jobspidernow

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。