# -*- coding:utf-8 -*-
import requests
import pandas as pd
from bs4 import BeautifulSoup
url = 'http://quote.eastmoney.com/stocklist.html'
# 伪装成Mozilla浏览器,解决反爬虫
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
# 生成属性字典
headers = {'User-Agent': user_agent}
# 获取目标网站的HTML页面
response = requests.get(url, headers=headers)
# 对HTML进行解析, .content 属性可以将tag的子节点以列表的方式输出
bs = BeautifulSoup(response.text, 'html.parser')
# 寻找div标签并且匹配到相关的class标签及其属性,然后输出成列表格式
#link_ul = bs.find('div', attrs={'id': 'quotesearch'}).find_all('ul')
quotesearch = bs.find('div',attrs={'id':'quotesearch'})
stock_list=quotesearch.find_all('ul')
#print stock_list
market_list = bs.find_all('div',attrs={'class':'sltit'})
#print market_list
#定义列表名称
col_name=['市场名称','股票名称','股票代码']
#定义一个空列表DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
# DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。
df_all=pd.DataFrame()
for stock,market in zip(stock_list,market_list):
#ii=ii+1