首先创建项目 scrapy startproject Dongguan,用pycharm打开项目Dongguan
cd到Dongguan项目文件夹,创建规则爬虫 scrapy genspider -t crawl dongguan(爬虫名称) wz.sun0769.com(爬取网页的范围)
在文件夹中创建创建start.py文件,直接运行start .py 文件就可以跑起项目
from scrapy import cmdline
#导包
cmdline.execute('scrapy crawl dongguan -o dongguan.csv'.split())
#dongguan是你创建的爬虫名字,dongguan.csv为爬取内容的保存路径
csv为保存格式, scrapy中还有其他6中保存格式 ('marshal', 'pickle','jsonlines', 'json', 'xml')
在spider文件夹下的dongguan.py中写爬取政务网站的函数
from scrapy.linkextractors import LinkExtractor