python爬虫学习之定向爬取股票信息

最新推荐文章于 2021-10-24 21:02:00 发布

原创

最新推荐文章于 2021-10-24 21:02:00 发布 · 2.5k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python #html #爬虫

一、功能描述
目标：获取上交所和深交所所有股票的名称和交易信息
输出：保存到文件中

技术路线：requests-bs4-re

二、
选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有robots协议限制

三、程序的结构设计
1、从东方财富网获取股票列表
2、根据股票列表逐个到百度股票获取个股信息
3、将结果存储到文件

四、

import requests
from bs4 import BeautifulSoup
import traceback
import re


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

#构造得到股票编号列表的函数
def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)
    soup = BeautifulSoup(html, 'html.parser')
    a = soup.find_all('a')
    for i in a:
        try:
            href = i.attrs['href']
            lst.append(re.findall(r"[s][hz]\d{6}", href)[0])
        except:
            continue

#构

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

learn_is_happy

关注关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

python网络爬虫：股票数据定向爬取

Wang Gangdan的博客

07-21

5395

百度股票（https://gupiao.baidu.com/stock/）属于静态网页数据，适合定向数据爬取；新浪股票（http://finance.sina.com.cn/stock/）数据存取在js文件中，属于动态数据，不适合定向爬取，所以选择百度股票（https://gupiao.baidu.com/stock/）作为爬取对象。PS：Robots协议没有禁止网络爬虫步骤说明步骤1： ...

Python爬虫实战：股票行情数据实时抓取与历史K线数据获取全攻略

2 条评论

辰之祥 2019.12.05
有没有详解的scrapy框架爬取股票的内容。

qq_44956043 2019.04.21
你好，请问你会写股票程序吗？

python股票爬虫

04-07

用python requests实现的股票信息抓取，包括当日实时数据和历史数据

股票数据爬取

qq_34907701的博客

03-20

1109

Python网络爬虫与信息提取-Day14-（实例）股票数据定向爬虫

ARC_XIANG的博客

09-29

3693

Python网络爬虫与信息提取（实例）股票数据定向爬虫

python爬虫学习之定向爬取淘宝商品价格

learn_is_happy的博客

12-11

4353

python爬虫学习之定向爬取淘宝商品价格import requests import redef getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() #如果发送了一个失败请求(非200响应),#我们可以通过 Response.raise_for_s

精选资源

掌握定向网络数据爬取和网页解析的基本能力,python网络爬虫与信息提取，python爬虫学习基础资料

02-10

本资料包将带你深入理解Python爬虫的基础知识，帮助你掌握定向网络数据爬取和网页解析的核心技能。首先，我们要了解Python爬虫的基础——HTTP/HTTPS协议。HTTP是互联网上应用最广泛的数据通信协议，HTTPS则是其...

python 爬虫学习--爬取m3u8视频文件

qq_39549803的博客

05-28

7988

python 爬虫学习–爬取m3u8视频文件之前学习了python爬虫，直到了you-get，但是有些网站还是获取不到，所以就又了解到了m3u8这种格式的视频流，学习着取爬了些小网站的视频。 m3u8文件获取首先先去获取m3u8的一级网址（有的需要重定向，有的不需要），我的这个是需要重定向的，不需要重定向的话，直接获取就可以了。注：因为不知道怎么正则表达式处理，所以就用了比较原始的方法取切片了，，，就最终效果来看还行 def get_m3u8_1(url): ''' 获取网站m3u8地

Python爬虫入门实例八之股票数据定向爬取并保存(优化版)

热门推荐

Mr.Q_LuLu的博客

10-30

1万+

本文采取requests+re+bs4的技术路线，定向爬取静态网站的股票信息并保存在文件中。内含完整代码，并对代码做了详细注释，能够很好的帮助初学者填坑并掌握，希望能够帮助到你~

股票爬虫

咸鱼的博客

04-23

3428

股票爬虫（第二篇：代码实现）文章目录股票爬虫（第二篇：代码实现）前言准备1、新建Maven项目2、需要的依赖、包代码编写1、获取网页返给我们的json2、太乱了，看的眼疼（那就数据清洗一下）3、数据的二次清洗，把数组进行格式化4、完美5、最后转换成csv文件完整代码打开csv文件，数据呈现确认信息含义你把鼠标放到网页图标上，然后再对应json信息即可前言写爬虫程序，大家都知道python，其实还有java可以写爬虫，由于博主是大数据分析专业的，而大数据很多框架都和java有关系，所以本篇的代码实现

python股票数据爬虫

12-08

爬取股票历史记录，数据源为新浪股票，用于股票趋势分析

python爬取雅虎财经股票交易数据

07-23

利用python编写了一个爬虫代码，爬取雅虎财经股票交易数据，可以更改URL，爬取其他网站数据

股票数据定向爬虫

Slatter的博客

08-06

1248

功能描述 • 目标：获取上证A股股票名称和交易信息 • 输出：保存到文件中 • 技术路线：requests + bs4 + re 此处选取股票信息静态存储在HTML页面中的页面进行爬取，之后会写一篇动态的爬取方式程序结构设计（1）首先得到股票代码，此处选取证券之星获得上证A股股票代码 （2）根据股票列表逐个到网易财经获取个股详细信息（3）将结果存储到文件代码实现 import re import time import traceback import requests from bs4 im

Python股票数据爬虫

nujiah001的专栏

10-05

899

最近再看python的爬虫,刚好有人问到能不能把所有的股票数据爬下来.看一些其他人的实现方式,可能一些网站进行了优化,竟然没有找到能完全直接用的,但得到了很好的思路.简单记录一下,方便以后自己使用. 准备工作. 安装anaconda.使用jupyter. 安装BeautifulSoup,requests 包实现步骤: 1.得到股票列表 def is_stock(hre...

Python网络爬虫之制作股票数据定向爬虫以及爬取的优化可以显示进度条！

HWP

11-24

2274

候选网站：新浪股票：http://finance.sina.com.cn/stock/ 百度股票：https://gupiao.baidu.com/stock/ 选取原则：无robots协议非js网页数据在HTMLK页面中的 F12，查看源代码，即可查看。新浪股票，使用JS制作。脚本生成的数据。百度股票可以在HTML中查询到！ http://quote.eastmoney.com/...

python爬虫学习爬取股票数据

zhangruiwyy的博客

10-24

1万+

通过在b站上学习”志斌的python学习笔记“的一篇文章——手把手教你从东方财富网上获取股票数据，再借鉴了相关的代码，对爬虫多少有了一些了解。在东方财富网上，选择沪深个股，可以看到下面各种各样的股票的一个排行。就以沪深A股为例，按F12，打开开发者模式，勾选Preserve log，刷新页面，找到数据真实存在的一个网页。我试了一下，是在一个jQuery112407838575370541614_1634516763211这里面，每一页单页都对应着这样一个网页，可以在Headers里面的Query S

[Python + MySQL]多线程股票数据爬虫

CodeZenPlayground

03-13

856

股票数据爬取目的拿到历史数据，结合经典的数据算法，来看看能不能找到一些数学规律。准备需要连接MySQL数据库，我用的是安卓机上的Termux，这样方便以后把代码放到手机上跑，还能结合itchat与微信交互（暂未开写）。直接上代码就是把所有数据下下来 #!/usr/bin/env python # -*- coding: utf-8 -*- # Author: CK # Date: 20...

python爬虫学习 之 定向爬取 股票信息

2 条评论

python爬虫学习之定向爬取股票信息