python基于selenium自动化的股票历史数据爬取，但是难产了

最新推荐文章于 2023-07-04 17:30:23 发布

原创

最新推荐文章于 2023-07-04 17:30:23 发布 · 887 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #selenium #正则表达式

Bourne同志这次用python爬取数据发生了严重车祸，现场惨不忍睹，堪比近期红遍网络的高速岔口轿车爬上了指路牌，啊！

python中selenium的环境搭建是极其简单的，相比于R要简单许多，同时在运行上相对稳定些。

万万没想到前天早上突然发现那个网站竟然消失了，没有了，我的个天啊，搞了好几天的东西，马上又得换新的网站或者客户端去测试了进行抓取。各位同志选择网站的时候慎重啊！还是大平台，什么网易、雅虎、新浪、同花顺等好点。

#selenium环境搭建
import wheel
#安装selenium
#pip install E:\py\selenium-3.141.0-py2.py3-none-any.whl
import selenium
from selenium import webdriver

#前面这部分selenium操作浏览器输入、清除股票代码只给具体操作，
#并未与整个股票数据抓取代码连接起来，所以，千万不要直接复制过去，是会报一帕拉错的
def browser_operation():
    #打开火狐浏览器
    browser = webdriver.Firefox()
    # 前往指定网页
    browser.get("http://www.aigaogao.com/tools/history.html?s=")
    # 找到输入框id，并输入值
    browser.find_element_by_id("s").send_keys("111111")
    # 找到回车键/搜索键并点击，得到搜索结果
    browser.find_element_by_name("好了").click()
    # 传入一堆股票代码
    stocks_code_list = list[一堆股票代码]
    # 清除输入框数据，进行下一条CODE输入
    browser.find_element_by_id("s").clear()


#需要用到的包载入
import pandas as pd
import re
import requests
from  requests.exceptions  import RequestException
import lxml
from lxml import etree
import pymysql
import time

def create_table():
    # 连接数据库，创建对应数据库的电影数据存储表，便于数据爬取后存入