【爬虫】scrapy下载股票列表(一)——对接selenium中间件

本文介绍了如何结合Scrapy和Selenium框架从东方财富网抓取股票列表。首先,创建Scrapy项目,定义Spider类并设置起始URL。在遇到登录或JavaScript渲染问题时,使用Selenium作为中间件进行动态页面处理。通过调整Scrapy的配置启用Selenium,并成功获取到股票列表的HTML内容。

先送上传送门,scrapy中文网,画风清奇的使用说明网站:http://www.scrapyd.cn/doc/139.html

安装完python就可以一键安装scrapy了

pip3 install scrapy

新建一个项目

scrapy startproject stock

看到如下输出:

You can start your first spider with:
    cd stock
    scrapy genspider example example.com

装了PYCHARM或者别的python开发工具的童鞋就可以在PYCHARM里面找到对应路径打开这个项目了(file->open…->打开文件夹)。scrapy已经自动创建了项目框架:
在这里插入图片描述
第一步在spiders文件夹下面创建一个py文件,stock_spider.py
在这里插入图片描述

scrapy的规则

A:首先我们需要创建一个类,并继承scrapy的一个子类:scrapy.Spider 或者是其他蜘蛛类型,后面会说到,除了Spider还有很多牛X的蜘蛛类型;

B:然后定义一个蜘蛛名,name=“” 后面我们运行的话需要用到;

C:定义我们需要爬取的网址,没有网址蜘蛛肿么爬,所以这是必须滴;

D:继承scrapy的一个方法:start_requests(self),这个方法的作用就是通过上面定义的链接去爬取页面,简单理解就是下载页面。

我们从东方财富网下载股票列表

先简单的保存HTML下来看看

'''
这是主程序
'''
import scrapy


class StockSpider(scrapy.Spider):
	name = 'stock_spider'

	def start_requests(self):
		# 东方财富网获取股票列表

		urls 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值