先送上传送门,scrapy中文网,画风清奇的使用说明网站:http://www.scrapyd.cn/doc/139.html
安装完python就可以一键安装scrapy了
pip3 install scrapy
新建一个项目
scrapy startproject stock
看到如下输出:
You can start your first spider with:
cd stock
scrapy genspider example example.com
装了PYCHARM或者别的python开发工具的童鞋就可以在PYCHARM里面找到对应路径打开这个项目了(file->open…->打开文件夹)。scrapy已经自动创建了项目框架:
第一步在spiders文件夹下面创建一个py文件,stock_spider.py
scrapy的规则
A:首先我们需要创建一个类,并继承scrapy的一个子类:scrapy.Spider 或者是其他蜘蛛类型,后面会说到,除了Spider还有很多牛X的蜘蛛类型;
B:然后定义一个蜘蛛名,name=“” 后面我们运行的话需要用到;
C:定义我们需要爬取的网址,没有网址蜘蛛肿么爬,所以这是必须滴;
D:继承scrapy的一个方法:start_requests(self),这个方法的作用就是通过上面定义的链接去爬取页面,简单理解就是下载页面。
我们从东方财富网下载股票列表
先简单的保存HTML下来看看
'''
这是主程序
'''
import scrapy
class StockSpider(scrapy.Spider):
name = 'stock_spider'
def start_requests(self):
# 东方财富网获取股票列表
urls