Bourne同志这次用python爬取数据发生了严重车祸,现场惨不忍睹,堪比近期红遍网络的高速岔口轿车爬上了指路牌,啊!
python中selenium的环境搭建是极其简单的,相比于R要简单许多,同时在运行上相对稳定些。
万万没想到前天早上突然发现那个网站竟然消失了,没有了,我的个天啊,搞了好几天的东西,马上又得换新的网站或者客户端去测试了进行抓取。各位同志选择网站的时候慎重啊!还是大平台,什么网易、雅虎、新浪、同花顺等好点。
#selenium环境搭建
import wheel
#安装selenium
#pip install E:\py\selenium-3.141.0-py2.py3-none-any.whl
import selenium
from selenium import webdriver
#前面这部分selenium操作浏览器输入、清除股票代码只给具体操作,
#并未与整个股票数据抓取代码连接起来,所以,千万不要直接复制过去,是会报一帕拉错的
def browser_operation():
#打开火狐浏览器
browser = webdriver.Firefox()
# 前往指定网页
browser.get("http://www.aigaogao.com/tools/history.html?s=")
# 找到输入框id,并输入值
browser.find_element_by_id("s").send_keys("111111")
# 找到回车键/搜索键并点击,得到搜索结果
browser.find_element_by_name("好了").click()
# 传入一堆股票代码
stocks_code_list = list[一堆股票代码]
# 清除输入框数据,进行下一条CODE输入
browser.find_element_by_id("s").clear()
#需要用到的包载入
import pandas as pd
import re
import requests
from requests.exceptions import RequestException
import lxml
from lxml import etree
import pymysql
import time
def create_table():
# 连接数据库,创建对应数据库的电影数据存储表,便于数据爬取后存入
db