Scrapy 项目步骤

1.创建项目:scrapy starproject 项目名
2.编写 items.py文件:设置需要保存的数据字段,明确想要抓取的目标,用来保存爬到的数据。
3.创建爬虫:scrapy genspider 爬虫名 “爬取的网址”
4.进入项目项目名/spiders
3个默认创建的:
name = " ":编写爬虫文件,文件里的 name 就是爬虫名(区别与项目名,唯一)
allowed_domains = []:允许的域组,规定爬虫这个域名下的网页,不存在的URL会被忽略。
start_urls = []:起始 url 地址,爬虫的开始
之后写方法处理响应内容:(xpath可以匹配出想要的数据,生成item,通过yield传到管道文件),在 setting.py 中设置管道文件的类名
5.存储内容:在pipelines.py中写管道类(必写item)

6.运行:
scrapy crawl itcast
scrapy crawl itcast - o json/csv/xml

Windows安装:pip install Scrapy

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值