使用scray可以提高开发效率,并且非常适合做一些中大型的爬虫项目
urllib适合写一些爬虫文件,scrapy适合做一些爬虫项目
安装教程:
1. update pip: python -m pip install --upgrade pip
2. install wheel: pip install wheel
3.install lxml : 下载安装(ldf网站) pip install *.whl 最好是下载安装
4.install Twisted : 也是一样的
5.install srapy: pip install scrapy (网络安装即可)
指令讲解:
scrapy -h
Fetch 直接获取web
Genspider 创建一个爬虫文件
Runspider 运行一个爬虫文件
Settings 爬虫项目的配置
Shell 进入一个交互式页面
Startproject 创建一个爬虫项目
View 主要就是打开一个url
1. 创建一个工程 scrapy startproject abc
Spiders:放的是爬虫文件
Items: 定义一些 需要爬的内容, 是书籍内容,还是价格,图片等
Middlewares: 中间件的文件,例如下载,设置代理IP值,
Pipelines: 主要是爬后处理的文件。例如 输出,写入文件
Settings: 总体设置文件。
.
创建爬虫文件,根据模版来创建
srapy genspider -1 (list)
scrapy genspider -t basic 文件名 baidu.com(域名)
scrapy list #查看当前可用的爬虫文件
scrapy crawl 文件名 #运行爬虫文件
scrapy crawl 文件名 --nolog

本文详细介绍Scrapy爬虫框架的安装步骤与基本使用方法,包括创建爬虫项目、配置设置文件、理解各组件功能等,适合初学者快速上手。
456

被折叠的 条评论
为什么被折叠?



