scrapy框架规则爬取政务网站案例

首先创建项目      scrapy startproject Dongguan,用pycharm打开项目Dongguan

 cd到Dongguan项目文件夹,创建规则爬虫 scrapy genspider -t crawl dongguan(爬虫名称) wz.sun0769.com(爬取网页的范围)     

在文件夹中创建创建start.py文件,直接运行start .py 文件就可以跑起项目

from scrapy import cmdline

#导包

cmdline.execute('scrapy crawl dongguan -o dongguan.csv'.split())

#dongguan是你创建的爬虫名字,dongguan.csv为爬取内容的保存路径

csv为保存格式, scrapy中还有其他6中保存格式 ('marshal', 'pickle','jsonlines', 'json', 'xml')

在spider文件夹下的dongguan.py中写爬取政务网站的函数                                                                                                     

from scrapy.linkextractors import LinkExtractor

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值