一个小妹要的,忙活了半天,很久没写了果然退步了,还是个人太菜,太渣了!
很久没有写Python爬虫了,有多久呢?一个礼拜,半个月还是一个月,太久了,导致手感稀疏,连很多库的用法都快忘得一干二净了,果然学习如逆水行舟,不进则退!
目标网站:
爬取目标:
页面上2024年中国500强排行榜所有数据
存在问题:
页面数据显示不完整,数据的获取存在隐藏展示
打开APP查看完整关键数据
解决思路:
其实数据是通过js点击加载,隐藏的关键数据可以通过js获取到,关键就是数据获取及整理加工
分享几个关键的地方:
1.写入csv文件
#写入csv文件
def write_scv(name,data):
opencsv=open(f'{name}.csv','a+')
print(">> 关键词数据正在写入csv..")
for i in data:
print (i)
opencsv.write('%s\n'%i)
print(">> 关键词数据写入csv成功!")
2.写入excel格式文件
#保存数据为excel格式
def bcsj(name,data):
workbook = xlwt.Workbook(encoding='utf-8')
booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
title = [['排名', '公司名称', '公司介绍', '营收(百万美元)']]
title.extend(data)