【爬虫】scrapy下载股票列表（一）——对接selenium中间件

最新推荐文章于 2025-06-15 17:55:44 发布

原创

最新推荐文章于 2025-06-15 17:55:44 发布 · 923 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#爬虫 #scrapy #selenium #股票数据

本文介绍了如何结合Scrapy和Selenium框架从东方财富网抓取股票列表。首先，创建Scrapy项目，定义Spider类并设置起始URL。在遇到登录或JavaScript渲染问题时，使用Selenium作为中间件进行动态页面处理。通过调整Scrapy的配置启用Selenium，并成功获取到股票列表的HTML内容。

先送上传送门，scrapy中文网，画风清奇的使用说明网站：http://www.scrapyd.cn/doc/139.html

安装完python就可以一键安装scrapy了

pip3 install scrapy

新建一个项目

scrapy startproject stock

看到如下输出：

You can start your first spider with:
    cd stock
    scrapy genspider example example.com

装了PYCHARM或者别的python开发工具的童鞋就可以在PYCHARM里面找到对应路径打开这个项目了（file->open…->打开文件夹）。scrapy已经自动创建了项目框架：
在这里插入图片描述
第一步在spiders文件夹下面创建一个py文件，stock_spider.py

scrapy的规则

A：首先我们需要创建一个类，并继承scrapy的一个子类：scrapy.Spider 或者是其他蜘蛛类型，后面会说到，除了Spider还有很多牛X的蜘蛛类型；

B：然后定义一个蜘蛛名，name=“” 后面我们运行的话需要用到；

C：定义我们需要爬取的网址，没有网址蜘蛛肿么爬，所以这是必须滴；

D：继承scrapy的一个方法：start_requests(self)，这个方法的作用就是通过上面定义的链接去爬取页面，简单理解就是下载页面。

我们从东方财富网下载股票列表

先简单的保存HTML下来看看

'''
这是主程序
'''
import scrapy


class StockSpider(scrapy.Spider):
	name = 'stock_spider'

	def start_requests(self):
		# 东方财富网获取股票列表

		urls

最低0.47元/天解锁文章

新学期VIP享超值加赠