前言
由于毕设是要对股票的新闻报道进行情感分析,所以爬取所有股票的个股资是必要的前提工作了。一开始准备直接在
东方财富网上爬取所有的个股资讯,但是在获得个股资讯列表的时候要模拟事件。
前提工作
安装python3(下载地址),在安装的时候选择添加到环境变量,如果没有选择,可以通过【右键我的电脑】->【属性】->【高级系统设置】->【环境变量】->【path】将安装的Python3的路径添加到path中。
通过命令行安装requests库:
pip install requests
3.安装 lxml
pip install lxml
4.安装pyquery
pip install pyquery
使用详情见静觅 » Python爬虫利器六之PyQuery的用法
5.安装pymysql
前提是先安装好mysql,然后同样采用
pip install pymysql
爬取数据
1. 爬取所有股票代码
分析网页的结果,由图片可知,股票代码为target为_blank的a标签的文本括号中的文字,股票名称为括号前的文字。因此对获得的text利用split函数进行处理得到股票代码和股票名称。
def getCodes():
codes=[]
url='http://quote.eastmoney.com/stocklist.html'
req =requests.get(url,timeout=30)
reporthtml