python爬虫案例#爬取学科排名-多级数据分类提取

案例需求:

  1. 采集“2023中国最好学科排名”的排名分类信息
  2. 包含的信息有序号,一级分类名称,二级分类名称,2023年学校排名,2022年学校排名,层次比例,logo图片地址,学校名称,总分
  3. 采集的数据存储在csv表格中,只使用xpath查找
  4. 每科排名仅获取一页
    主页面
    主页面
    子页面
    子页面

前置条件

使用到的库:

import time
import requests
from lxml import etree
import pandas as pd
from requests.exceptions import RequestException

获取请求:

try:
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        print('请求成功', response.status_code)
        content = response.content.decode('utf-8')
    else:
        print('请求失败', response.status_code)
except RequestException as e:
    print('请求失败', e)
except Exception as e:
    print('未知错误', e)

设置字典来存储数据:

data = {
   
    '序号': [],
    '一级分类': [],
    '二级分类': [],
    '2023年排名': 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值