【Python爬虫】2024年中国500强排行榜数据爬取附Pyhton源码

一个小妹要的,忙活了半天,很久没写了果然退步了,还是个人太菜,太渣了!

很久没有写Python爬虫了,有多久呢?一个礼拜,半个月还是一个月,太久了,导致手感稀疏,连很多库的用法都快忘得一干二净了,果然学习如逆水行舟,不进则退!

目标网站:

980269c19db5843f08bf9f076029cbb3.png

爬取目标:

页面上2024年中国500强排行榜所有数据

d0b70eabf7d7503d77f411d476bf4835.png

存在问题:

页面数据显示不完整,数据的获取存在隐藏展示

打开APP查看完整关键数据

29d1c4a80a09d3844718b246734c4d3c.png

解决思路:

其实数据是通过js点击加载,隐藏的关键数据可以通过js获取到,关键就是数据获取及整理加工

4d97acd58bf7055f8def47c1ce42f328.png

分享几个关键的地方:

1.写入csv文件

#写入csv文件
def write_scv(name,data):
    opencsv=open(f'{name}.csv','a+')
    print(">> 关键词数据正在写入csv..")
    for i in data:
        print (i)
        opencsv.write('%s\n'%i)
    print(">> 关键词数据写入csv成功!")

2.写入excel格式文件

#保存数据为excel格式
def bcsj(name,data):
    workbook = xlwt.Workbook(encoding='utf-8')
    booksheet = workbook.add_sheet('Sheet 1', cell_overwrite_ok=True)
    title = [['排名', '公司名称', '公司介绍', '营收(百万美元)']]
    title.extend(data)
  
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值