Python爬虫基础:安装Scrapy爬虫框架和创建Scrapy爬虫项目

本文详细介绍如何使用清华大学镜像源安装Scrapy爬虫所需组件,包括pywin32、Twisted及Scrapy本身,同时指导如何创建并运行Scrapy项目,实现网页数据抓取。

首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple

1、安装scrapy

1.1、安装pywin32(解决python调用windows系统库的问题)

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32 

1.2、安装Twisted网络数据处理的集成包,scrapy会调用

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple Twisted

1.3、安装scrapy模块

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy

1.4、查看scrapy的版本号

scrapy version
 

2、创建scrapy爬虫项目

2.1、执行如下命令创建一个爬虫项目

scrapy startproject newspiderproject

2.2、进入项目目录使用scrapy genspider命令创建爬虫主文件,指定爬取的url

cd newspiderproject

执行  scrapy genspider jobspidernow  www.baidu.com

生成爬虫主文件

2.3、使用scrapy crawl 启动爬虫,查看是否能够访问url,如果200说明访问成功,爬虫框架搭建成功

scrapy crawl jobspidernow

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值