案例需求:
- 采集“2023中国最好学科排名”的排名分类信息
- 包含的信息有序号,一级分类名称,二级分类名称,2023年学校排名,2022年学校排名,层次比例,logo图片地址,学校名称,总分
- 采集的数据存储在csv表格中,只使用xpath查找
- 每科排名仅获取一页
主页面
子页面
前置条件
使用到的库:
import time
import requests
from lxml import etree
import pandas as pd
from requests.exceptions import RequestException
获取请求:
try:
response = requests.get(url, headers=headers)
if response.status_code == 200:
print('请求成功', response.status_code)
content = response.content.decode('utf-8')
else:
print('请求失败', response.status_code)
except RequestException as e:
print('请求失败', e)
except Exception as e:
print('未知错误', e)
设置字典来存储数据:
data = {
'序号': [],
'一级分类': [],
'二级分类': [],
'2023年排名':