做毕设要找数据,因为要进行翻页操作,还是一个需要先登陆的网站,就舍弃了request选择了selenium。
-
登录
跟着下面这篇博客写的登陆环节,很有效。中间有一次没有办法正确登录,我把"taobaoCookies.pickle"这个文件删除就可以了(应该是因为cookie内容变了)
https://blog.youkuaiyun.com/qq_42348937/article/details/85065104
这里说一句,我再登陆后需要再进行点击才能进入我要的数据页面,所以在上述链接中代码的最后一行中的网址,我直接复制粘贴的有数据的那个页面网址,发现这样也凑效,就省去一次点击操作啦~ -
网页解析,爬取数据
browser.get("你有数据的那个网址")
html=browser.page_source
bs = BeautifulSoup(html, "html.parser") # 创建BeautifulSoup对象解析
data0=bs.find('div', attrs={'class':'###', 'style':'###'}) # 获取指定div
tbody= data0.find('tbody')
tr = tbody.find_all('tr') # 获取tr部分
#写入数据
temp=[]
mon='1'
temp.append(mon+'/'+str(i))
for n in tr:
td = n.find_all('td') # 获取所有的td标签
#print('td')
#print(td)
temp.append(td[1].text)
'''#横轴标题
timelist=[]
for i in range(0,24):
timelist.append(str(i) +':00')'''
# 存储为csv
with open('temp.csv', 'a+', encoding='utf-8', newline='') as f:
writer = csv.writer(f)
writer.